同类实体的挖掘方法及系统技术方案

技术编号:18658012 阅读:25 留言:0更新日期:2018-08-11 14:26
本发明专利技术公开了一种同类实体的挖掘方法及系统,通过获取示例实体对应的文本描述信息;对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;计算抽取出的所述特征信息中各个特征所分别对应的权重,得到对应的类别实体判定公式;利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体;解决了现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题,提高了利用同类实体挖掘方法所确定出的同类实体的准确率。

Method and system for mining similar entities

The invention discloses a mining method and a system for similar entities, by acquiring the text description information corresponding to the example entity, summarizing the acquired text description information, extracting the feature information corresponding to the text description information, and calculating the corresponding features of the extracted feature information. The weights are used to determine the corresponding classified entities, and the corresponding descriptive texts of other entities are determined by the corresponding classified Entities'weights. The problem of low accuracy of identical entities determined by existing classified entities mining methods is solved, and the use of similar entities is improved. The accuracy of similar entities determined by entity mining method.

【技术实现步骤摘要】
同类实体的挖掘方法及系统
本专利技术涉及互联网
,特别涉及一种同类实体的挖掘方法及系统。
技术介绍
随着互联网技术的不断发展,搜索引擎已经成为人们获取各种信息的主要工具,用户输入搜索请求后,搜索引擎向用户返回与该搜索请求相对应的搜索结果。为了更加方便用户提高资源利用率,获取更多信息,往往在用户输入搜索请求后,希望搜索引擎能够返回搜索结果的同时、返回与该搜索结果同类型的其他内容,通常特指与搜索结果中所包含的实体同类别的其他实体,上述搜索过程也称同类实体挖掘。通常情况下,实体可以是现实中的一个事物,也可以是一个概念,或者是用户定义的其他内容;比如一个人名、一部电影名称等都可以是实体,再比如一个术语也是一个实体。同类实体挖掘指的是给定一个实体,挖掘与给定实体同类别的其他的实体,现有的同类别实体挖掘方法确定出的同类实体的准确率低。
技术实现思路
本专利技术提供一种同类实体的挖掘方法及系统,用以解决现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题。本专利技术提供了一种同类实体的挖掘方法,所述同类实体的挖掘方法包括:获取示例实体对应的文本描述信息;对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;计算抽取出的所述特征信息中各个特征所分别对应的权重,得到对应的类别实体判定公式;利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体。优选地,所述文本描述信息包括:百科词条对应的标题、属性、标签以及文本。优选地,所述对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息,包括:对获取的所述文本描述信息进行去重处理,并将去重后得到的所述文本描述信息进行切词处理,得到切词后的单独的词;从得到的单独的词中,识别出其中描述确切对象的词语,将识别出的词语作为所述文本描述信息对应的特征信息。优选地,所述计算抽取出的所述特征信息中各个特征所分别对应的权重,包括:按照抽取出的所述特征信息中各个特征出现的次数,以及各个特征的重要程度,计算各个特征所对应的权重,得到每个特征所分别对应的特征值。优选地,所述利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体,包括:利用得到的所述判定公式,计算其他实体对应的描述文本的关联度值;根据需求,获取关联度值大于预设阈值的实体、作为与所述示例实体同类别的实体;或者:按照关联度值的大小,由先至后对其他实体进行排序,得到由其他实体对应组成的实体序列;获取排列在所述实体序列中的前N个实体、作为与所述示例实体同类别的实体;其中,所述N为大于1的整数。对应于以上实施例所提供的一种同类实体的挖掘方法,本专利技术还提供了一种同类实体的挖掘系统,所述同类实体的挖掘系统包括:信息获取模块,用于获取示例实体对应的文本描述信息;信息抽取模块,用于对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;权重计算模块,用于计算抽取出的所述特征信息中各个特征所分别对应的权重,得到对应的类别实体判定公式;实体判定模块,用于利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体。优选地,所述文本描述信息包括:百科词条对应的标题、属性、标签以及文本。优选地,所述信息抽取模块用于:对获取的所述文本描述信息进行去重处理,并将去重后得到的所述文本描述信息进行切词处理,得到切词后的单独的词;从得到的单独的词中,识别出其中描述确切对象的词语,将识别出的词语作为所述文本描述信息对应的特征信息。优选地,所述权重计算模块用于:按照抽取出的所述特征信息中各个特征出现的次数,以及各个特征的重要程度,计算各个特征所对应的权重,得到每个特征所分别对应的特征值。优选地,所述实体判定模块用于:利用得到的所述判定公式,计算其他实体对应的描述文本的关联度值;根据需求,获取关联度值大于预设阈值的实体、作为与所述示例实体同类别的实体;或者:按照关联度值的大小,由先至后对其他实体进行排序,得到由其他实体对应组成的实体序列;获取排列在所述实体序列中的前N个实体、作为与所述示例实体同类别的实体;其中,所述N为大于1的整数。本专利技术一种同类实体的挖掘方法及系统可以达到如下有益效果:通过获取示例实体对应的文本描述信息;对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;计算抽取出的所述特征信息中各个特征所分别对应的权重,得到对应的类别实体判定公式;利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体;解决了现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题,提高了利用同类实体挖掘方法所确定出的同类实体的准确率。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术同类实体的挖掘方法的一种实施方式的流程示意图;图2是本专利技术同类实体的挖掘系统的一种实施方式的功能模块示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术提供了一种同类实体的挖掘方法及系统,用以解决现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题,提高利用同类实体挖掘方法所确定出的同类实体的准确率。如图1所示,图1是本专利技术一种同类实体的挖掘方法的实施方式的流程示意图;本专利技术一种同类实体的挖掘方法可以实施为如下描述的步骤S10-S40:步骤S10、获取示例实体对应的文本描述信息;本专利技术实施例中,示例实体包括但不限于:人名、地名、机构名、书名、歌曲名、影视剧名、产品名、品牌名等专有名词;也可以是在某一特定领域内使用的专业术语,例如医疗领域、金融领域等涉及的专用名字。同类实体的挖掘系统(以下简称“挖掘系统”)获取示例实体对应的文本描述信息,可以通过如下方式获取:利用对应的搜索引擎例如百科网站进行挖掘,获取百科网站中该示例实体对应的所有词条,将获取的词条内容作为该示例实体对应的文本描述信息,并进行保存。上述百科网站包括但不限于:维基百科、百度百科、360百科等百科网站数据。在本专利技术一优选的实施例中,挖掘系统获取的上述文本描述信息包括但不限于:百科词条对应的标题、属性、标签以及文本。步骤S20、对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;挖掘系统对获取的上述文本描述信息进行归纳总结,例如,以属性进行分类,然后以标题为重点进行归纳总结,或者以标签为重点进行归纳总结,或者以摘要为重点进行归纳总结,进而抽取出上述文本描述信息对应的特征信息。上述特征信息可以是:该文本描述信息对应的关键词、属性、标签、标题、摘要等。在本专利技术一优选的实施例中,挖掘系统通过如下方式对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息:对获取的上述文本描述信本文档来自技高网...

【技术保护点】
1.一种同类实体的挖掘方法,其特征在于,所述同类实体的挖掘方法包括:获取示例实体对应的文本描述信息;对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;计算抽取出的所述特征信息中各个特征所分别对应的权重,得到对应的类别实体判定公式;利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体。

【技术特征摘要】
1.一种同类实体的挖掘方法,其特征在于,所述同类实体的挖掘方法包括:获取示例实体对应的文本描述信息;对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;计算抽取出的所述特征信息中各个特征所分别对应的权重,得到对应的类别实体判定公式;利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体。2.如权利要求1所述的同类实体的挖掘方法,其特征在于,所述文本描述信息包括:百科词条对应的标题、属性、标签以及文本。3.如权利要求1或2所述的同类实体的挖掘方法,其特征在于,所述对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息,包括:对获取的所述文本描述信息进行去重处理,并将去重后得到的所述文本描述信息进行切词处理,得到切词后的单独的词;从得到的单独的词中,识别出其中描述确切对象的词语,将识别出的词语作为所述文本描述信息对应的特征信息。4.如权利要求1或2所述的同类实体的挖掘方法,其特征在于,所述计算抽取出的所述特征信息中各个特征所分别对应的权重,包括:按照抽取出的所述特征信息中各个特征出现的次数,以及各个特征的重要程度,计算各个特征所对应的权重,得到每个特征所分别对应的特征值。5.如权利要求1或2所述的同类实体的挖掘方法,其特征在于,所述利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体,包括:利用得到的所述判定公式,计算其他实体对应的描述文本的关联度值;根据需求,获取关联度值大于预设阈值的实体、作为与所述示例实体同类别的实体;或者:按照关联度值的大小,由先至后对其他实体进行排序,得到由其他实体对应组成的实体序列;获取排列在所述实体序列中的前N个实体、作为与所...

【专利技术属性】
技术研发人员:罗杰
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1