一种面向人物属性稀疏页面的人物信息抽取方法技术

技术编号:23315197 阅读:21 留言:0更新日期:2020-02-11 17:50
本发明专利技术公开了一种面向人物属性稀疏页面的人物信息抽取方法,其步骤包括:1)对页面的人物属性信息含量进行量化;其中,页面为根据设定检索关键词搜索到的页面;2)根据页面的量化值确定从该页面抽取的语句数n,作为该页面的文本块;其中,抽取的n个语句为与检索关键词最邻近的n个句子,页面的量化值越高,则对应的语句数n值越大;3)从各所述文本块中抽取人物属性特征,得到包含人物属性特征的候选集。本发明专利技术能够在页面人物属性稀疏的场景下依旧能达到较高的准确率、召回率以及F1值,从而为人物检索系统提供准确可靠的数据基础。

A method of character information extraction for sparse page of character attributes

【技术实现步骤摘要】
一种面向人物属性稀疏页面的人物信息抽取方法
本专利技术涉及一种面向人物属性稀疏页面的人物信息抽取方法,属于计算机软件

技术介绍
人物信息抽取是人物搜索引擎的数据基础,它一般指对于给定的人名或者其他检索词,从搜索引擎检索到的各种各样的页面中,抽取得到属于该人物的多个属性信息(国籍、住址等)。不同于命名实体识别的地方在于,此处的人物属性抽取不仅仅要将页面中的人物属性抽取出来,还需要对抽取的多个人物属性值进行判断,选取属于检索人物的属性值。目前,常见的人物信息抽取技术可以分为两类。一类是基于规则的抽取方法,它一般是通过挖掘文本中常见的模式,构建正则从文本中提取属性值。由于海量文本中的模式相对复杂,干扰因素多,因此该类方法的效果很大程度上依赖于挖掘模式的多少与好坏。另一类是基于机器学习的抽取方法,它一般分为两个步骤。第一步是通过传统命名实体识别、词典等方法生成每个待提取属性的候选集;第二步是通过机器学习构造的分类器对候选集进行筛选。按照抽取页面人物属性含量的不同,目前的人物信息抽取技术可以分为两类:一类是面向人物属性含量丰富页面的抽取方法;一类是面向人物属性含量不定(可能丰富、可能稀疏)页面的抽取方法。已有工作虽对上述两种场景做了充分的研究,但缺少在页面人物属性含量稀疏场景下的研究。
技术实现思路
本专利技术的目的在于提供一种面向人物属性稀疏页面的人物信息抽取方法,使算法在页面人物属性稀疏的场景下依旧能达到较高的准确率、召回率以及F1值(准确率和召回率的调和均值),为人物检索系统提供准确可靠的数据基础。本专利技术的技术方案为:一种面向人物属性稀疏页面的人物信息抽取方法,其步骤包括:1)对页面的人物属性信息含量进行量化;其中,页面为根据设定检索关键词搜索到的页面;2)根据页面的量化值确定从该页面抽取的语句数n,作为该页面的文本块;其中,抽取的n个语句为与检索关键词最邻近的n个句子,页面的量化值越高,则对应的语句数n值越大;3)从各所述文本块中抽取人物属性特征,得到包含人物属性特征的候选集。进一步的,对页面的人物属性信息含量进行量化的方法为:11)设置若干衡量指标,并为每一衡量指标设置一对应的原始权重和该衡量指标对应的属性个数上限;12)当页面中包含一衡量指标对应的属性个数大于或等于该衡量指标对应的属性个数上限时,则该衡量指标的权重为相应的原始权重;否则该衡量指标的权重为对应的原始权重*页面中包含该衡量指标对应的属性个数/该衡量指标对应的属性个数上限;13)将该页面的各项衡量指标的权重值相加作为该页面的量化值。进一步的,所述衡量指标包括但不限于下列衡量指标的一个或若干组合:姓名、地理位置、组织、时间、国家、页面单词个数、关键词个数、邮箱、QQ号、电话号码、比特币、Skype号和微信号。进一步的,抽取人物属性特征的方法为:首先根据待抽取属性类别的不同,将人物属性类别分为三个类别:传统命名实体、特殊类型实体和特殊名词词组;其中,特殊类型实体为存在一定规则的实体;然后,采用命名实体识别工具从文本块中抽取传统命名实体,采用基于规则的抽取方法从文本块中抽取特殊类型实体,采用维基百科构造每个特殊名称词组对应的词典,然后利用所述词典从文本块中抽取特殊名词词组。进一步的,对候选集中的人物属性特征进行验证,其方法为:对于每个属性分别训练一个相应的分类器,用于从该属性的多个候选属性值中选取可能性最大的属性值;然后将各属性对应的可能性最大的属性值作为检索关键词对应的人物属性信息。进一步的,对于同一属性a的每一候选值,提取该候选值的特征,然后根据候选值的特征生成该候选值的特征向量;然后根据候选值的特征向量与该属性a对应的一设定特征向量的相似度对该属性a的候选值进行筛选,得到该属性a的候选值集合;然后利用SVM模型对该属性a的候选值集合进行训练,得到该属性a的分类器。进一步的,所述候选值的特征包括候选值的位置、出现次数、单词个数、是否有关键词、所在段落格式、大写字母个数、大写字母个数占比、首字母个数占比、数字个数、数字占比、首字母大写单词占比、是否在url中、特殊字符个数、特殊字符占比、名词个数、名词占比、介词个数、附近是否有候选词。本专利技术针对页面人物属性稀疏的问题,改进常见的人物信息抽取方法,在原有的基础上增添了文本块选取方法,将页面中的文本块进行过滤筛选,进而对选取出的文本块进行下一步特征提取;为了有效且合理的选取文本块,提出了量化文本人物属性含量方法;以及使用规则、词典、NER多种方法从已经过滤好的文本块中抽取属性的候选集。本专利技术从候选集的上下文、属性值、词性等方面共提取了30个特征,使用SVM模型对候选集进行验证。与现有技术相比,本专利技术的积极效果为:1、提出了在页面人物属性稀疏场景下,预抽取文本块的选择方法,有效地清除了页面中的干扰文本。2、结果的验证中采用词向量计算两个单词的相似度,有效地排除了文本的噪声。3、实验采用WePS的数据集,实验结果通过准确率、召回率、F1值三个方面进行衡量。实验结果如表1所示。其中,人名的准确率最高,为89.3%,平均准确率为58%;学校的召回率最高,为45.8%,平均召回率为27.2%;职位的F1值最高,为55.8%,平均F1值为37%。表2为WePS实验结果,通过比较,通过比较,不难发现,在人物属性缺省的场景下,无论在准确率、召回率、F1值方面,本文的结果均要远优于WePS的结果。表1为实验结果属性推荐数正确数总数准确率召回率F1值组织单位32112141737.729.037.8出生地531060.050.040.0国籍34184952.936.740.0位置792115626.613.517.9学校22112450.045.847.8职位2469651139.018.825.4邮箱19122463.250.055.8生日1154145.512.219.2名字449401130289.330.845.8平均1186668253458.027.237.0表2为WePS各参赛小组实验结本文档来自技高网...

【技术保护点】
1.一种面向人物属性稀疏页面的人物信息抽取方法,其步骤包括:/n1)对页面的人物属性信息含量进行量化;其中,页面为根据设定检索关键词搜索到的页面;/n2)根据页面的量化值确定从该页面抽取的语句数n,作为该页面的文本块;其中,抽取的n个语句为与检索关键词最邻近的n个句子,页面的量化值越高,则对应的语句数n值越大;/n3)从各所述文本块中抽取人物属性特征,得到包含人物属性特征的候选集。/n

【技术特征摘要】
1.一种面向人物属性稀疏页面的人物信息抽取方法,其步骤包括:
1)对页面的人物属性信息含量进行量化;其中,页面为根据设定检索关键词搜索到的页面;
2)根据页面的量化值确定从该页面抽取的语句数n,作为该页面的文本块;其中,抽取的n个语句为与检索关键词最邻近的n个句子,页面的量化值越高,则对应的语句数n值越大;
3)从各所述文本块中抽取人物属性特征,得到包含人物属性特征的候选集。


2.如权利要求1所述的方法,其特征在于,对页面的人物属性信息含量进行量化的方法为:
11)设置若干衡量指标,并为每一衡量指标设置一对应的原始权重和该衡量指标对应的属性个数上限;
12)当页面中包含一衡量指标对应的属性个数大于或等于该衡量指标对应的属性个数上限时,则该衡量指标的权重为相应的原始权重;否则该衡量指标的权重为对应的原始权重*页面中包含该衡量指标对应的属性个数/该衡量指标对应的属性个数上限;
13)将该页面的各项衡量指标的权重值相加作为该页面的量化值。


3.如权利要求2所述的方法,其特征在于,所述衡量指标包括但不限于下列衡量指标的一个或若干组合:姓名、地理位置、组织、时间、国家、页面单词个数、关键词个数、邮箱、QQ号、电话号码、比特币、Skype号和微信号。


4.如权利要求1所述的方法,其特征在于,抽取人物属性特征的方法为:首先根据待抽取属性类别的...

【专利技术属性】
技术研发人员:王学宾时金桥王大魁尹泽林赵璨高悦陈牧谦王美琪
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1