一种基于社会网络和人名上下文的人物信息消歧处理方法技术

技术编号:5434645 阅读:396 留言:0更新日期:2012-04-11 18:40
一种基于社会网络和人名上下文的人物信息消歧处理方法,本发明专利技术涉及一种互联网人物信息的消歧处理方法。它解决了现有技术的搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合的问题。用于网络人物信息检索。它包括下述步骤:一、用户输入一个要检索的人名,利用搜索引擎完成检索,利用下载软件把检索到的网页下载到本地计算机;二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理,形成文档;三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。

【技术实现步骤摘要】

本专利技术涉及一种互联网人物信息的消歧处理方法。
技术介绍
由于通用搜索引擎对垂直领域相关知识的检索结果远未达到人们的预期,垂直搜 索引擎技术应运而生。命名实体的研究作为垂直搜索引擎技术的核心,其研究也逐渐热门 起来。命名实体是文本中承载信息的重要语言单位。实体概念在文本中的引用(entity mention,也可称为指称项)可以有三种形式命名性指称、名词性指称和代词性指称。围绕 命名实体有一系列的研究任务,例如命名实体的识别、排歧、属性抽取、关系抽取等。其中, 命名实体识别任务是识别出文本中实体概念的命名性指称项,并标明其类别(例如人名、 地名、机构名、产品名等);命名实体排歧解决的是一个命名性指称项指称多个实体概念的 问题以及多个命名性指称项指称同一个实体概念的问题。利用搜索引擎检索人物信息是互联网用户的主要活动之一,然而现实世界中,多 个人物共用一个人名是很普遍的现象,根据国家语委1989年对第三次全国人口普查资料 进行的抽样调查,单名重名率为67.7%,双名重名率为32.4%,这导致搜索引擎对某一特 定人名的检索结果往往是共享这一人名的不同人物相关网页的混合。例如,Google检索 “王刚”返回的前10个结果中就有“国家著名演员”、“中央政治局委员”、“西北工业大学副 教授”、“山东黄金篮球队队员”、“建筑师”、“中国作家协会会员”等六位不同实体人物。虽然 现在有些系统能对检索结果进行聚类处理,例如mMiao、人立方等,但它们都把人名当成普 通词汇进行处理,聚类结果的标签也是这个人名相关的一些词汇,没有对人名的重名结果 进行区分。如在人立方六度空间中搜索“马二磊”和“刘德华”的关系时,系统会给出通过 “崔青”,“杨臣刚”建立联系。因此有必要按照文档中出现的某个指定的人名所指向的人进 行聚类。最后,在每个类中,所有指定的人名都必须是指向现实生活中的同一个人,最终形 成的结果简单、精炼、美观,使用户更快、更方便的得到所需搜索的人物信息。但现有技术达 不到上述要求。
技术实现思路
本专利技术的目的是提供, 以解决现有技术的搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物 相关网页的混合的问题。它包括下述步骤一、用户输入一个要检索的人名,利用搜索引擎 完成检索,利用下载软件把检索到的网页下载到本地计算机;二、对上述网页分别进行正文 提取处理、分词处理和词性标注的处理,形成文档;三、利用人物领域信息先对文档进行分 类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领 域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。由于本专利技术把检索到的网页进行了正文提取、分词和词性标注以及分类、聚类等 处理,最终确定了实体人物与人物领域信息的对应关系并且显示出每个实体人物存在的社会网络,从而每个实体人物所对应的相关网页都能够被区分开,因而实现了人物信息的排 歧处理。附图说明图1是本专利技术的整体原理示意图,图2是已基于人物领域信息的预分类示意图, 图3是基于社会网络和上下文信息的文档处理示意图。具体实施例方式具体实施方式一本实施方式包括下述步骤一、用户输入一个要检索的人名,利 用搜索引擎,如Google API,(即谷歌公司提供的应用编程接口)完成检索,把检索到的网 页下载到本地计算机;二、对上述网页分别进行正文提取、分词和词性标注处理,形成文档; 所述分词即将每句话切分为具有独立意义的词条,词性标注是指同时标记每个词的如名 词、动词等词性,分词和词性标注可分别采用广泛使用的正向最大匹配方法及N元文法等。 三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息 进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每 个实体人物存在的社会网络。具体实施方式二 本实施方式与实施方式一的不同点是在第三步骤中利用人物领 域信息进行分类是这样进行的基于人物领域信息进行预分类,将人物信息分为文娱、行 政、军事、科教、体育、医疗、经济等七大类,对每个类,手工标注若干篇代表性文档,而后提 取每个领域类别的特征信息,形成一个领域特征库,那么利用SVM进行文档分类处理,简单 地把现实中的人物进行分类。这样,一个类型中的人物就和其他类型中的人物分开了,他们 之间就没有可比性了,后续只要处理同一个领域类别中的人物信息就可以了,对同一个类 别中的人物进行聚类处理,从而最终实现人物信息的排歧处理。具体实施方式三本实施方式与实施方式一的不同点是在第三步骤中利用社会网 络和上下文信息对人物领域信息进行聚类处理是这样进行的文档中出现的其他人物信息 的上下文信息能很好的显示了人物的一些用于区别他人的特有属性。文档中共现的人名组 成其社会网络,上下文信息构成其社会属性特征。检索人名A,如果文档Dl中出现人名A和 B,文档D2中也出现人名A和B,那么文档Dl和D2就是说的同一个现实中的人物实体,那么 他们对应于同一个类别,否则D2中出现人名A和C,则认为他们为不同的人物类别。并且在 处理过程中,其社会网络是在不断的扩大的,即如果文档Dl中出现人名A、B和C,文档D2中 出现人名A、B和D,那么文档Dl和文档D2的社会网络都将是A、B、C、D。但是在利用社会 网络处理过程中会出现一篇文档中只出现一个名字,那么社会网络处理方法就会失效,这 时利用上下文信息,主要是对其社会属性如职称等信息进行匹配进行处理,如果文档D4中 没有出现其他共现人名的话,如果文档D3和文档D4中人名上下文信息匹配度高的话,就认 为D3和D4是同一个类别,并且这样可能把D3的社会网络传递给了 D4。具体实施方式四据中华人民共和国国家统计局对于社会各个行业的划分标准, 本实施方式将“人物”划分为七个类别,分别是文娱、行政、军事、科教、体育、医疗、经济。本 实施方式根据文档词频(DF)、信息增益(IG)、互信息(MI)、X2统计(CHI)、交叉熵法和优势率等统计量获得文档特征,然后采用基于属性论的文本相似度方法来进行人物信息的预分 类处理。 每个领域人物信息的特征库是已知的一个文本信息向量,利用目标文本向量与之 计算相似度,每个领域都计算一次,哪个相似度大就将其归为哪一个类别。知道已知文本信息向量为d = U1W1, t2w2. . . tiWi. . . tnwn)其中t为特征词,w为其 对应的权重,在上面进行特征库构建的过程中,其中η值为2000,选取词的权重为词频,而 根据属性论的方法,其权重为0-1之间的一个值,所以在这里对权重进行处理;本文档来自技高网
...

【技术保护点】
一种基于社会网络和人名上下文的人物信息消歧处理方法,其特征在于它包括下述步骤:一、用户输入一个要检索的人名,利用搜索引擎完成检索,利用下载软件把检索到的网页下载到本地计算机;二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理,形成文档;三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。

【技术特征摘要】
1.一种基于社会网络和人名上下文的人物信息消歧处理方法,其特征在于它包括下述 步骤一、用户输入一个要检索的人名,利用搜索引擎完成检索,利用下载软件把检索到的 网页下载到本地计算机;二、对上述网页分别进行正文提取处理、分词处理和词性标注的处 理,形成文档;三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对 人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系, 并且显示出每个实体人物存在的社会网络。2.根据权利要求1所述的一种基于社会网络和人名上下文的人物信息消歧处理方法, 其特征在于在第三步骤中利用人物领域信息进行分类是这样进行的基于人物领域信息 进行预分类,将人物信息分为文娱、行政、军事、科教、体育、医疗、经济七大类,根据手工标 注的语料,提取每个领域类别的特征信息,形成一个领域特征库,利用SVM进行文档...

【专利技术属性】
技术研发人员:刘远超刘铭王晓龙刘秉权林磊单丽莉孙承杰
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1