人物搜索方法和设备技术

技术编号:8489814 阅读:220 留言:0更新日期:2013-03-28 11:30
本发明专利技术提供了一种人物搜索方法和设备,该方法包括:文档获取步骤,以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档;预处理步骤,对所获取的多个文档进行预处理,以获得多个文档的相关信息;特征提取步骤,从所获得的相关信息中提取文档特征;特征优化步骤,针对每个特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算步骤,利用优化后的特征,计算多个文档中每两个文档之间的相似度;以及文档聚类步骤,基于算出的相似度,对多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。根据本发明专利技术的实施例,能够提高聚类性能,并且能够提高召回率,从而改善了用户体验。

【技术实现步骤摘要】

本专利技术涉及网络服务领域,并且更具体地,涉及一种基于特征优化的人物搜索方法和设备
技术介绍
近年来,随着网络的发展,网络上的重名信息越来越多。因此,如何区分这些具有相同名称的人物已引起了研究者的兴趣。例如,当在网页的搜索引擎中输入要搜索的人物的名称时,返回的结果中可能包含许多其他同名人物的信息。这就需要再人工添加查询词或者逐一浏览以确定哪些信息是需要的。但是,由于人工添加查询词对搜索结果进行了过滤,从而降低了搜索的覆盖率;而逐一进行浏览又需要花费大量的时间和精力。因此,理想的解决方案是对搜索引擎返回的搜索结果进行聚类,从而将具有相同名称的不同人物聚在不同的类别中,既保证了信息不会丢失,又节约了时间。为了解决上述问题,现有的大部分方案都是采用网页聚类的方法,即将包含相同人物名称的相似文档聚在一起,从而便于用户查看。但是,由于网页相对于纯文本具有噪声大、错误多的特点,因此会出现表示不同人物的文档被聚类在一起或者表示同一人物的文档未被聚类在一起的情况,从而大大降低了聚类的性能。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。但是,应当理本文档来自技高网...

【技术保护点】
一种人物搜索方法,包括:文档获取步骤,以给定的人物名称作为关键词进行搜索,以获取与所述人物名称相关的多个文档;预处理步骤,对所获取的多个文档进行预处理,以获得所述多个文档的相关信息;特征提取步骤,从所获得的相关信息中提取文档特征;特征优化步骤,针对每个所述特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算步骤,利用优化后的特征,计算所述多个文档中每两个文档之间的相似度;以及文档聚类步骤,基于算出的相似度,对所述多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。

【技术特征摘要】

【专利技术属性】
技术研发人员:张姝孟遥夏迎炬于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1