本申请提供一种文本数据聚合分析方法、装置及电子设备,通过对文本数据进行实体抽取,实现了文本数据中业务要素的提取,避免了对文本数据进行结构化带来的工作量;对文本数据的实体抽取结果中的待合并实体进行叠加处理,实现了文本数据的聚合分析,取代了人工对文本数据进行筛选和统计的过程,提高了文本数据的数据统计分析的效率和准确率,并且,实体抽取和叠加处理能够直接用于新增文本的聚合分析中,提高了文本数据聚合分析方法的鲁棒性。提高了文本数据聚合分析方法的鲁棒性。提高了文本数据聚合分析方法的鲁棒性。
【技术实现步骤摘要】
文本数据聚合分析方法、装置及电子设备
[0001]本申请涉及数据分析
,尤其涉及一种文本数据聚合分析方法、装置及电子设备。
技术介绍
[0002]在文本数据的统计分析过程中,将相同业务要素对应的文本数据进行聚合分析,提升了文本数据的应用价值。
[0003]通常,对文本数据的聚合分析可以通过人工统计结构化文本数据的方式完成,但是,由于文本数据的数据量一直在增长,以及人工统计的工作效率低,导致文本数据的聚合分析的错误率高,并且,当新增文本数据时,采用存量文本数据的统计方法无法对新增文本数据进行聚合分析。
技术实现思路
[0004]有鉴于此,本申请的目的在于提出一种文本数据聚合分析方法、装置及电子设备,用以解决或部分解决上述技术问题。
[0005]基于上述目的,本申请的第一方面提供了一种文本数据聚合分析方法,包括:
[0006]获取文本数据;
[0007]对所述文本数据进行实体抽取,得到实体抽取结果,其中,所述实体抽取结果包括:包括数字特征数据的待合并实体和所述待合并实体对应的聚类实体;
[0008]对所述待合并实体进行叠加处理,得到合并实体;
[0009]根据所述合并实体和所述聚类实体获得聚合文本数据。
[0010]本申请的第二方面提供了一种文本数据聚合分析装置,包括:
[0011]获取模块,被配置为获取文本数据;
[0012]抽取模块,被配置为对所述文本数据进行实体抽取,得到实体抽取结果,其中,所述实体抽取结果包括:包括数字特征数据的待合并实体和所述待合并实体对应的聚类实体;
[0013]叠加模块,被配置为对所述待合并实体进行叠加处理,得到合并实体;
[0014]聚合模块,被配置为根据所述合并实体和所述聚类实体获得聚合文本数据。
[0015]本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如本申请第一方面提供的所述的方法。
[0016]从上面所述可以看出,本申请提供的文本数据聚合分析方法、装置及电子设备,通过对文本数据进行实体抽取,实现了文本数据中业务要素的提取,避免了对文本数据进行结构化带来的工作量;对文本数据的实体抽取结果中的待合并实体进行叠加处理,实现了文本数据的聚合分析,取代了人工对文本数据进行筛选和统计的过程,提高了文本数据的数据统计分析的效率和准确率,并且,实体抽取和叠加处理能够直接用于新增文本的聚合
分析中,提高了文本数据聚合分析方法的鲁棒性。
附图说明
[0017]为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本申请实施例的文本数据聚合分析方法的流程示意图;
[0019]图2为本申请实施例的文本数据聚合分析装置的结构示意图;
[0020]图3为本申请实施例的电子设备的结构示意图。
具体实施方式
[0021]为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
[0022]需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0023]如
技术介绍
所述,文本数据中包括具有数字特征的数据,上述具有数字特征的数据可以与其对应的业务要素一起进行聚合分析,实现文本数据的数据统计分析。
[0024]例如,对于下列文本数据:
[0025]案件1:xxx工程,涉及金额2万元,涉及人数3人。
[0026]案件2:xxx工程,涉及金额5万元,涉及人数5人。
[0027]经过聚合分析后可以得到聚合文本数据如下:
[0028]xxx工程,涉及金额7万元,涉及人数8人。
[0029]具体的,对文本数据的聚合分析可以通过人工统计来完成,也可以通过结构化文本数据的方式完成。例如,将上述文本数据中的金额和人数设置为数字属性,然后对具有数字属性且属于相同业务要素的数据进行求和。
[0030]这样做带来的问题有:由于文本数据的数据量一直在增长,以及人工统计的工作效率低,导致文本数据的聚合分析的错误率高,并且,当新增文本数据时,采用存量文本数据的统计方法无法对新增文本数据进行聚合分析。
[0031]因此,为了提高文本数据聚合分析的效率和准确性,需要提供一种能够对文本数据中具有数字特征数据进行叠加处理的文本数据聚合分析方法。
[0032]如图1所示,本实施例的方法包括:
[0033]步骤101,获取文本数据。
[0034]在该步骤中,文本数据指的是包括字符型数据、数值型数据和符号数据的数据,本实施例优选的文本数据可以是不同业务类型的,包括字符型数据、数值型数据和符号数据的数据,例如,文本数据可以是预先存储的案件数据,也可以是接收到的案件数据。
[0035]这样,为后续对文本数据进行实体抽取和叠加处理提供数据基础。
[0036]步骤102,对所述文本数据进行实体抽取,得到实体抽取结果,其中,所述实体抽取结果包括:包括数字特征数据的待合并实体和所述待合并实体对应的聚类实体。
[0037]在该步骤中,实体指的是文本数据中的具有特定意义或者指代性强的数据,本实施例优选的实体可以是预先定义的,文本数据中的具有特定意义或者指代性强的数据,例如,实体可以是案件数据中的案发地点、工程名称、公司名称、医疗机构和车牌号。
[0038]待合并实体指的是数字特征数据对应的实体,本实施例优选的待合并实体可以是预先定义的,数字特征数据对应的实体,例如,待合并实体可以是案件数据中的人数和金额。
[0039]聚类实体指的是待合并实体对应的具有相同特征的实体,本实施例优选的聚类实体可以是预先定义的,待合并实体对应的具有相同特征的实体,例如,聚类实体可以是案件数据中的人数和金额对应的工程名称、案发街道和案发日期。
[0040]这样,通过文本的实体抽取为后续待合并实体的叠加处理提供数据基础,以及实现了文本数据中业务要素的提取,避免了对文本数据进行结构化带来的工作量。
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本数据聚合分析方法,其特征在于,包括:获取文本数据;对所述文本数据进行实体抽取,得到实体抽取结果,其中,所述实体抽取结果包括:包括数字特征数据的待合并实体和所述待合并实体对应的聚类实体;对所述待合并实体进行叠加处理,得到合并实体;根据所述合并实体和所述聚类实体获得聚合文本数据。2.根据权利要求1所述的方法,其特征在于,所述对所述待合并实体进行叠加处理,得到合并实体,包括:获取所述待合并实体中的数字特征数据的数据类型;根据所述数据类型对所述待合并实体进行叠加处理,得到合并实体。3.根据权利要求2所述的方法,其特征在于,所述根据所述数据类型对所述待合并实体进行叠加处理,得到合并实体,包括:响应于确定所述数据类型为数值型,通过数值计算方法对所述数字特征数据进行叠加处理,得到所述合并实体;响应于确定所述数据类型为字符型,通过去重叠加方法对所述数字特征数据进行叠加处理,得到所述合并实体。4.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行实体抽取,得到实体抽取结果,包括:对所述文本数据进行关键词过滤处理,得到待分类文本数据;根据预先设定的分类标签集对所述待分类文本数据进行分类,得到所述分类标签集中分类标签对应的标签文本数据;利用预先训练得到的实体抽取模型对所述标签文本数据进行实体抽取,得到所述实体抽取结果。5.根据权利要求4所述的方法,其特征在于,所述根据预先设定的分类标签集对所述待分类文本数据进行分类,得到所述分类标签集中分类标签对应的标签文本数据,包括:采用预先训练得到的分类模型对所述待分类文本数据进行分类,得到分类结果,其中,所述分类模型中的分类输出为所述分类标签集合;响应于确定所述分类结果的自信度大于等于预设阈值,将所述分类结果作为所述标签文本数据。6.根据权利要求4所述的方法,其特征在于,所述利用预先训练得到的实体抽取模型对所述标签文本数据进行实体...
【专利技术属性】
技术研发人员:邓鑫,梁志明,陈诚,
申请(专利权)人:贵州小爱机器人科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。