人物搜索方法和设备技术

技术编号:8489814 阅读:194 留言:0更新日期:2013-03-28 11:30
本发明专利技术提供了一种人物搜索方法和设备,该方法包括:文档获取步骤,以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档;预处理步骤,对所获取的多个文档进行预处理,以获得多个文档的相关信息;特征提取步骤,从所获得的相关信息中提取文档特征;特征优化步骤,针对每个特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算步骤,利用优化后的特征,计算多个文档中每两个文档之间的相似度;以及文档聚类步骤,基于算出的相似度,对多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。根据本发明专利技术的实施例,能够提高聚类性能,并且能够提高召回率,从而改善了用户体验。

【技术实现步骤摘要】

本专利技术涉及网络服务领域,并且更具体地,涉及一种基于特征优化的人物搜索方法和设备
技术介绍
近年来,随着网络的发展,网络上的重名信息越来越多。因此,如何区分这些具有相同名称的人物已引起了研究者的兴趣。例如,当在网页的搜索引擎中输入要搜索的人物的名称时,返回的结果中可能包含许多其他同名人物的信息。这就需要再人工添加查询词或者逐一浏览以确定哪些信息是需要的。但是,由于人工添加查询词对搜索结果进行了过滤,从而降低了搜索的覆盖率;而逐一进行浏览又需要花费大量的时间和精力。因此,理想的解决方案是对搜索引擎返回的搜索结果进行聚类,从而将具有相同名称的不同人物聚在不同的类别中,既保证了信息不会丢失,又节约了时间。为了解决上述问题,现有的大部分方案都是采用网页聚类的方法,即将包含相同人物名称的相似文档聚在一起,从而便于用户查看。但是,由于网页相对于纯文本具有噪声大、错误多的特点,因此会出现表示不同人物的文档被聚类在一起或者表示同一人物的文档未被聚类在一起的情况,从而大大降低了聚类的性能。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。但是,应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图用来确定本专利技术的关键性部分或重要部分,也不是意图用来限定本专利技术的范围。其目的仅仅是以简化的形式给出关于本专利技术的某些概念,以此作为稍后给出的更详细描述的前序。由于对于聚类任务,特征的选择是非常关键的。因此,本专利技术的目的是提供一种新颖且改进的人物搜索方法和设备,其能够通过对特征进行优化,滤除掉影响聚类结果的禁用特征,以保证特征的有效性,从而提高聚类的性能,并且还能够在传统的标准聚类过程之后,进一步引入检索策略以进行类别归并,从而使得被当成单独类别的单个文档归入其相应的类别中,以提高召回率。为了实现上述目的,根据本专利技术的实施例的一个方面,提供了 一种人物搜索方法,该方法可以包括文档获取步骤,以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档;预处理步骤,对所获取的多个文档进行预处理,以获得多个文档的相关信息;特征提取步骤,从所获得的相关信息中提取文档特征;特征优化步骤,针对每个特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算步骤,利用优化后的特征,计算多个文档中每两个文档之间的相似度;以及文档聚类步骤,基于算出的相似度,对多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。根据本专利技术的实施例的另一方面,还提供了一种人物搜索设备,该设备可以包括文档获取单元,以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档;预处理单元,对所获取的多个文档进行预处理,以获得多个文档的相关信息;特征提取单元,从所获得的相关信息中提取文档特征;特征优化单元,针对每个特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算单元,利用优化后的特征,计算多个文档中每两个文档之间的相似度;以及文档聚类单元,基于算出的相似度,对多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。另外,根据本专利技术的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本专利技术的人物搜索方法。此外,根据本专利技术的再一方面,还提供了 一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本专利技术的上述人物搜索方法。因此,根据本专利技术的实施例,能够通过对特征进行优化以保证特征的有效性从而提高聚类的性能,并且能够通过在标准聚类过程之后引入检索策略以进行类别归并,从而提闻召回率。在下面的说明书部分中给出本专利技术实施例的其他方面,其中,详细说明用于充分地公开本专利技术实施例的优选实施例,而不对其施加限定。附图说明下面结合具体的实施例,并参照附图,对本专利技术实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。图1示出了根据本专利技术的实施例的人物搜索方法的流程图;图2详细示出了根据本专利技术的实施例的特征优化算法的流程图;图3示出了根据本专利技术的检索策略的流程图;图4详细示出了图3所示的类别相似度计算步骤的第一示例的流程图;图5详细示出了图3所示的类别相似度计算步骤的第二示例的流程图;图6示出了根据本专利技术的实施例的人物搜索设备的配置的框图;图7详细示出了图6中的禁止特征集合获取单元的配置的框图;图8示出了图6中的类别相似度计算单元的第一示例的配置的框图;图9示出了图6中的类别相似度计算单元的第二示例的配置的框图;以及图10是示出作为本专利技术的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的设备结构和/或处理步骤,而省略了与本专利技术关系不大的其它细节。以下参照附图1至10来描述本专利技术的实施例。首先参照图1,对根据本专利技术的实施例的人物搜索方法进行描述。该人名搜索方法可以包括文档获取步骤SlOl :以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档。具体地,在互联网搜索引擎中输入想要搜索的人物的名称,从而得到返回的与该人物名称相关的多个网页。预处理步骤S102 :对在步骤SlOl中获取的多个文档进行预处理,以获得多个文档的相关信息,该相关信息例如可包括网页的URL、标题、时间以及正文等信息。特征提取步骤S103 :从在步骤S102中获得的文档相关信息中提取文档特征。这里,文档特征提取的范围是整个文档,并且所提取的文档特征可以是对该文档具有较强指示能力的特征,例如可以包括命名实体特征、复合名词特征和超链接特征。具体地,对于命名实体特征,这里采用斯坦福的NER(命名实体识别)来进行命名实体特征的提取。实体可以包括三种常见的类型入名、地名以及机构名。由于地名和机构名可能具有许多与特定人物相关性较低的名词,因此与入名相比,对地名和机构名分配较低的权重值。在通过搜索得到的多个文档中,根据WePS(网络人物搜索)2009,每个文档包含至少出现过一次的要搜索的入名。然而,由于聚类的目的是为了区分指的是同名而不同人的文档,因此所输入的查询人名属于禁用词(stop-word),应该从所提取的特征中剔除该特征。这是因为这些禁用词不但难以缩小搜索范围,还会延误搜索结果的提供。对于复合名词特征,它们可以包含与一个人物相关的语义信息或传记信息,这对于识别个体是非常好的指示。复合名词特征的提取是基于复合名词与其作本文档来自技高网...

【技术保护点】
一种人物搜索方法,包括:文档获取步骤,以给定的人物名称作为关键词进行搜索,以获取与所述人物名称相关的多个文档;预处理步骤,对所获取的多个文档进行预处理,以获得所述多个文档的相关信息;特征提取步骤,从所获得的相关信息中提取文档特征;特征优化步骤,针对每个所述特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算步骤,利用优化后的特征,计算所述多个文档中每两个文档之间的相似度;以及文档聚类步骤,基于算出的相似度,对所述多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。

【技术特征摘要】

【专利技术属性】
技术研发人员:张姝孟遥夏迎炬于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1