The invention discloses a mining method and a system for similar entities, by acquiring the text description information corresponding to the example entity, summarizing the acquired text description information, extracting the feature information corresponding to the text description information, and calculating the corresponding features of the extracted feature information. The weights are used to determine the corresponding classified entities, and the corresponding descriptive texts of other entities are determined by the corresponding classified Entities'weights. The problem of low accuracy of identical entities determined by existing classified entities mining methods is solved, and the use of similar entities is improved. The accuracy of similar entities determined by entity mining method.
【技术实现步骤摘要】
同类实体的挖掘方法及系统
本专利技术涉及互联网
,特别涉及一种同类实体的挖掘方法及系统。
技术介绍
随着互联网技术的不断发展,搜索引擎已经成为人们获取各种信息的主要工具,用户输入搜索请求后,搜索引擎向用户返回与该搜索请求相对应的搜索结果。为了更加方便用户提高资源利用率,获取更多信息,往往在用户输入搜索请求后,希望搜索引擎能够返回搜索结果的同时、返回与该搜索结果同类型的其他内容,通常特指与搜索结果中所包含的实体同类别的其他实体,上述搜索过程也称同类实体挖掘。通常情况下,实体可以是现实中的一个事物,也可以是一个概念,或者是用户定义的其他内容;比如一个人名、一部电影名称等都可以是实体,再比如一个术语也是一个实体。同类实体挖掘指的是给定一个实体,挖掘与给定实体同类别的其他的实体,现有的同类别实体挖掘方法确定出的同类实体的准确率低。
技术实现思路
本专利技术提供一种同类实体的挖掘方法及系统,用以解决现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题。本专利技术提供了一种同类实体的挖掘方法,所述同类实体的挖掘方法包括:获取示例实体对应的文本描述信息;对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;计算抽取出的所述特征信息中各个特征所分别对应的权重,得到对应的类别实体判定公式;利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体。优选地,所述文本描述信息包括:百科词条对应的标题、属性、标签以及文本。优选地,所述对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息,包括:对获取的所述文 ...
【技术保护点】
1.一种同类实体的挖掘方法,其特征在于,所述同类实体的挖掘方法包括:获取示例实体对应的文本描述信息;对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;计算抽取出的所述特征信息中各个特征所分别对应的权重,得到对应的类别实体判定公式;利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体。
【技术特征摘要】
1.一种同类实体的挖掘方法,其特征在于,所述同类实体的挖掘方法包括:获取示例实体对应的文本描述信息;对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息;计算抽取出的所述特征信息中各个特征所分别对应的权重,得到对应的类别实体判定公式;利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体。2.如权利要求1所述的同类实体的挖掘方法,其特征在于,所述文本描述信息包括:百科词条对应的标题、属性、标签以及文本。3.如权利要求1或2所述的同类实体的挖掘方法,其特征在于,所述对获取的所述文本描述信息进行归纳总结,抽取出所述文本描述信息对应的特征信息,包括:对获取的所述文本描述信息进行去重处理,并将去重后得到的所述文本描述信息进行切词处理,得到切词后的单独的词;从得到的单独的词中,识别出其中描述确切对象的词语,将识别出的词语作为所述文本描述信息对应的特征信息。4.如权利要求1或2所述的同类实体的挖掘方法,其特征在于,所述计算抽取出的所述特征信息中各个特征所分别对应的权重,包括:按照抽取出的所述特征信息中各个特征出现的次数,以及各个特征的重要程度,计算各个特征所对应的权重,得到每个特征所分别对应的特征值。5.如权利要求1或2所述的同类实体的挖掘方法,其特征在于,所述利用得到的所述判定公式,判定其他实体对应的描述文本,找出与所述示例实体同类别的实体,包括:利用得到的所述判定公式,计算其他实体对应的描述文本的关联度值;根据需求,获取关联度值大于预设阈值的实体、作为与所述示例实体同类别的实体;或者:按照关联度值的大小,由先至后对其他实体进行排序,得到由其他实体对应组成的实体序列;获取排列在所述实体序列中的前N个实体、作为与所...
【专利技术属性】
技术研发人员:罗杰,
申请(专利权)人:北京云知声信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。