互联网人物信息搜索引擎的生成方法技术

技术编号:2858626 阅读:248 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及互联网信息搜索引擎技术领域,互联网人物相关信息的搜索引擎的生成方法。方法包括:S1,针对人物的数据预处理,主要包括网页去重、网页噪音过滤;S2,同名人物的判别和人物履历的填充,S3:人物事件报道的组织;S4,人物知名度变化的统计。本发明专利技术适用于建立大规模商用人物相关信息的搜索引擎。

【技术实现步骤摘要】

本专利技术涉及互联网信息搜索引擎
,更具体地说,本专利技术涉及互联网人物相关信息的搜索引擎的生成方法。
技术介绍
随着互联网的发展,人们对互联网信息服务的需求正呈现多样化发展的趋势,传统的搜索引擎并不能完全满足这种要求。尽管目前流行的信息服务形式很多,例如“图片搜索”、“歌曲/歌词搜索”、“热点新闻搜索”等,但从人物角度来组织信息的服务还不常见。目前已经公开的技术只能根据提交的人名关键词返回含有该人名的原始网页,处理的精细程度不够;或只能对部分名人的信息进行较精细的处理,返回相关名人的特征属性和特征人群,所能处理的人物范围有限。在这种情况下,人们要想了解一个在互联网上出现过的人物的信息,往往不得不借助于通用领域的搜索引擎,例如Google等,键入相关的人名,得到返回页面,其中不乏与同名同姓的不同人物相关的页面,也不乏与人物姓名词形相同的非人物实体;页面只是采取简单罗列的方式,未根据人物的特征进行整理,用户无法对所关注人物的信息进行清晰的把握。
技术实现思路
本专利技术的目的在于克服现有技术的缺点,解决目前无法对人物信息进行大规模有效处理的问题,提供一种新颖实用的互联网人物搜索引擎的生成方法。本专利技术的目的通过下述技术方案予以实现。本专利技术提供的互联网人物搜索引擎所呈现的人物相关信息主要包括人物的履历和人物的事件报道专集以及人物的知名度变化统计图。制作人物履历就是从网页中自动抽取出该人物的属性信息和特定类型的事件信息,并把分散的各种属性、特定类型事件信息进行整合,形成完整的生平履历。制作人物的事件报道专集,就是把人物参与的事件报道按照内在发展逻辑有效地组织起来,形成清晰的逻辑结构。在具体流程上,主要有以下四个步骤针对人物的数据预处理,主要包括网页去重、网页噪音过滤、人名的识别、人物对应语段的确定、时间标签的确定、人物属性的抽取、人物特定类型事件的抽取等;同名人物的判别和人物履历的填充,主要是对人名出现的上下文进行影响范围划分,使得在同一分区里的人名,在真实世界里“指称”同一个人,并对同一人物的履历信息进行填充;人物事件报道的组织,主要是把与同一人物相关的活动报道按照事件的发展逻辑组织起来,形成清晰的逻辑结构;人物知名度变化的统计,主要是生成人物知名度变化的曲线图。搜索引擎接受用户输入的人名,首先让搜索引擎向用户呈现同名人物的信息,等待用户点击具体某一人物时再向用户提供该人物的具体信息。人物履历信息的生成采用同名人物的判别,以及人物属性抽取或人物特定事件抽取来完成。人物属性的抽取采用机器学习训练二元分类器的方法来实现。同名人物的判别采用数值属性计算或类属性、数值属性计算相混合的聚类方法来实现。人物事件报道的组织在同名人物判别的基础上,采用对同一人物的网页内容或网页内容片断进行聚类的方法来实现。人物知名度变化的统计在同名人物判别的基础上,采用计算单位时间内人名在报道中的出现的方法来实现。本专利技术与现有技术相比,有如下优点1.克服了同名人物和非人物返回页面的问题,这样就可以减少跟人物不相关的信息的冗余,降低用户的阅读工作量。2.提供了人物的履历,这样就可以简明清晰地突出人物的主要特征。3.提供了人物的活动报道专集,这样可以克服传统技术返回的人物相关页面杂乱无章的局面。4.提供了人物知名度的变化统计图,这样可以呈现人物在互联网上的知名变化程度。我们组织人力手工标注了万篇级的语料,语料涉及20个人名,分属不同的领域和不同的知名程度。语料来源于“百度”搜索引擎中的新闻搜索所返回的人物相关网页。我们在这个语料上做了相关的实验,其人物属性抽取的平均性能达到79.41%,同名人物判别的平均性能达到91.69%(只对人名周边词场进行数值计算的方法进行聚类,性能达到86.49%;对人名周边词场和人物属性进行类属性与数值属性混合计算来聚类,性能达到91.69%);我们没有标注人物参与的事件的语料,但在新闻事件组织方面有国际标准评测,叫做“话题识别与跟踪”(topicdetection and tracking),我们的技术在世界著名研究机构中,处于领先地位。我们认为其技术完全适用于对人物事件的组织。互联网人物信息搜索引擎的生成涉及的其它技术问题采用目前已经公开的技术可以得到有效解决。附图说明图1示出人物搜索引擎生成方法的文档处理流程图。具体实施方法下面结合附图和具体实施方式对本专利技术作进一步的描述。如图1所示,按照对文档的处理流程,人物信息搜索引擎的生成方法可大致分为以下四个步骤数据预处理、同名人物的判别及履历信息的填充、人物事件报道的组织和人物知名度变化的统计。步骤S1在数据预处理阶段,系统只接受收集到的新闻网站上的网页,然后对各个网页顺序处理,包括网页去重、网页噪音过滤、人名的识别、人物对应语段的确定、时间标签的确定、人物属性的抽取、人物特定类型事件的抽取等。网页去重可以采用目前成熟的技术。对于人物信息搜索引擎来说,除了新闻正文和标题,其它内容均可视为网页噪音,这些噪音可以通过对页面源文件的解析来去除,目前该项技术也已经成熟。人名的识别需要借助于词法分析工具,所用工具必须具有词性标注和命名实体识别的功能。目前,世界上大多数语种都有性能比较好的相关工具,其中,在汉语词法分析方面,根据其使用的方法不同,大致可分为三种规则方法,统计方法以及规则与统计相结合的方法。目前效果比较好的是采用Viterbi算法对切词结果进行角色标注,然后进行模式最大匹配的方法。该方法人名识别的正确率和召回率分别达到95.57%和95.23%,能够达到实用的要求。在一篇新闻报道中,跟一个人物相关的语段范围是有限的,它往往不是全文,而只是报道的一部分,所以需要挖掘出人物在报道中相关的语段。在做法上,可以利用一些启发式知识,以人名及其指代词为中心来对文档进行分割。这些启发式知识主要是利用人名相关词在文档中的位置分布来确定人物的作用范围,例如如果人名出现在报道的标题和正文第一段,则它的作用范围是新闻全篇;出现在其它段落,则作用范围是当前段落;如果与某一段落相邻的其它语段都是有效段落,则它也成为有效段落等。这样,如果一篇报道描述了N个人,我们就对该报道确立出N个语段的集合{P1,P2,...,PN},分别与这N个人相对应。时间是构成新闻的一个重要因素。在这里,时间标签的选取可以采用新闻报道本身的时间戳记,也可以对人物对应语段Pi(1≤i≤N)中的时间表达式进行识别和规范化处理,采用对基准日期和相对日期进行时制计算的方法来确定。目前该项技术已经可以实用化。确定人物对应的语段后,还要从相关语段中抽取出人物的属性信息,诸如性别、年龄、民族、籍贯、出生年月、职位、住址及亲属关系等,为后续处理做准备。抽取人物的属性,可以事先手工标注一定规模的训练集,然后选取人名和某一属性周边若干数目的词,对这些词进行语义聚类,形成特征向量,并统计出各个语义词在特征向量中的权重;根据特征向量和标注的答案,训练出人名和属性的二元关系分类器,具体分类算法可选用SVM、Winnow等。分类器训练好之后,就可对新的候选单句判断其是否包含人名和属性的二元关系。为了识别出人物的属性,需要事先建立若干触发词库,如把语义上位是“职位”的词语作为“人物职位”的触发词库(汉语词语的语义上位可通过查“知网”来获本文档来自技高网...

【技术保护点】
一种互联网人物信息搜索引擎的生成方法,该方法包括下列步骤:步骤S1,针对人物的数据预处理,主要包括网页去重、网页噪音过滤、人名的识别、人物对应语段的确定、时间标签的确定、人物属性的抽取、人物特定类型事件的抽取;步骤S2,同名 人物的判别和人物履历的填充,主要是采用聚类的技术对同名人物的信息进行区分,并对同一人物的履历信息进行填充;步骤S3,人物事件报道的组织,主要是把与同一人物相关的活动报道采用聚类技术按照事件的发展逻辑组织起来,形成清晰的逻辑结构; 步骤S4,人物知名度变化的统计,主要是通过统计人物报道的相关特征来分析人物的知名度变化。

【技术特征摘要】
1.一种互联网人物信息搜索引擎的生成方法,该方法包括下列步骤步骤S1,针对人物的数据预处理,主要包括网页去重、网页噪音过滤、人名的识别、人物对应语段的确定、时间标签的确定、人物属性的抽取、人物特定类型事件的抽取;步骤S2,同名人物的判别和人物履历的填充,主要是采用聚类的技术对同名人物的信息进行区分,并对同一人物的履历信息进行填充;步骤S3,人物事件报道的组织,主要是把与同一人物相关的活动报道采用聚类技术按照事件的发展逻辑组织起来,形成清晰的逻辑结构;步骤S4,人物知名度变化的统计,主要是通过统计人物报道的相关特征来分析人物的知名度变化。2.根据权利要求1所述的人物搜索引擎的生成方法,其特征是,搜索引擎接受用户输入的人名,首先让搜索引擎向用户呈现同名人物的信息,等待用户点击具体某一人物时再向用户提供该人...

【专利技术属性】
技术研发人员:于满泉白硕
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1