一种面向人物属性稀疏页面的人物信息抽取方法技术

技术编号：23315197 阅读：21 留言：0更新日期：2020-02-11 17:50

本发明专利技术公开了一种面向人物属性稀疏页面的人物信息抽取方法，其步骤包括：1)对页面的人物属性信息含量进行量化；其中，页面为根据设定检索关键词搜索到的页面；2)根据页面的量化值确定从该页面抽取的语句数n，作为该页面的文本块；其中，抽取的n个语句为与检索关键词最邻近的n个句子，页面的量化值越高，则对应的语句数n值越大；3)从各所述文本块中抽取人物属性特征，得到包含人物属性特征的候选集。本发明专利技术能够在页面人物属性稀疏的场景下依旧能达到较高的准确率、召回率以及F1值，从而为人物检索系统提供准确可靠的数据基础。

A method of character information extraction for sparse page of character attributes

全部详细技术资料下载

【技术实现步骤摘要】
一种面向人物属性稀疏页面的人物信息抽取方法
本专利技术涉及一种面向人物属性稀疏页面的人物信息抽取方法，属于计算机软件

技术介绍
人物信息抽取是人物搜索引擎的数据基础，它一般指对于给定的人名或者其他检索词，从搜索引擎检索到的各种各样的页面中，抽取得到属于该人物的多个属性信息(国籍、住址等)。不同于命名实体识别的地方在于，此处的人物属性抽取不仅仅要将页面中的人物属性抽取出来，还需要对抽取的多个人物属性值进行判断，选取属于检索人物的属性值。目前，常见的人物信息抽取技术可以分为两类。一类是基于规则的抽取方法，它一般是通过挖掘文本中常见的模式，构建正则从文本中提取属性值。由于海量文本中的模式相对复杂，干扰因素多，因此该类方法的效果很大程度上依赖于挖掘模式的多少与好坏。另一类是基于机器学习的抽取方法，它一般分为两个步骤。第一步是通过传统命名实体识别、词典等方法生成每个待提取属性的候选集；第二步是通过机器学习构造的分类器对候选集进行筛选。按照抽取页面人物属性含量的不同，目前的人物信息抽取技术可以分为两类：一类是面向人物属性含量丰富页面的抽取方法；一类是面向人物属性含量不定(可能丰富、可能稀疏)页面的抽取方法。已有工作虽对上述两种场景做了充分的研究，但缺少在页面人物属性含量稀疏场景下的研究。
技术实现思路
本专利技术的目的在于提供一种面向人物属性稀疏页面的人物信息抽取方法，使算法在页面人物属性稀疏的场景下依旧能达到较高的准确率、召回率以及F1值(准确率和召回率的调和均值)，为人物检索系统...

【技术保护点】
1.一种面向人物属性稀疏页面的人物信息抽取方法，其步骤包括：/n1)对页面的人物属性信息含量进行量化；其中，页面为根据设定检索关键词搜索到的页面；/n2)根据页面的量化值确定从该页面抽取的语句数n，作为该页面的文本块；其中，抽取的n个语句为与检索关键词最邻近的n个句子，页面的量化值越高，则对应的语句数n值越大；/n3)从各所述文本块中抽取人物属性特征，得到包含人物属性特征的候选集。/n

【技术特征摘要】
1.一种面向人物属性稀疏页面的人物信息抽取方法，其步骤包括：
1)对页面的人物属性信息含量进行量化；其中，页面为根据设定检索关键词搜索到的页面；
2)根据页面的量化值确定从该页面抽取的语句数n，作为该页面的文本块；其中，抽取的n个语句为与检索关键词最邻近的n个句子，页面的量化值越高，则对应的语句数n值越大；
3)从各所述文本块中抽取人物属性特征，得到包含人物属性特征的候选集。

2.如权利要求1所述的方法，其特征在于，对页面的人物属性信息含量进行量化的方法为：
11)设置若干衡量指标，并为每一衡量指标设置一对应的原始权重和该衡量指标对应的属性个数上限；
12)当页面中包含一衡量指标对应的属性个数大于或等于该衡量指标对应的属性个数上限时，则该衡量指标的权重为相应的原始权重；否则该衡量指标的权重为对应的原始权重*页面中包含该衡量指标对应的属性个数/该衡量指标对应的属性个数上限；
13)将该页面的各项衡量指标的权重值相加作为该页面的量化值。

3.如权利要求2所述的方法，其特征在于，所述衡量指标包括但不限于下列衡量指标的一个或若干组合：姓名、地理位置、组织、时间、国家、页面单词个数、关键词个数、邮箱、QQ号、电话号码、比特币、Skype号和微信号。

4.如权利要求1所述的方法，其特征在于，抽取人物属性特征的方法为：首先根据待抽取属性类别的...

【专利技术属性】
技术研发人员：王学宾，时金桥，王大魁，尹泽林，赵璨，高悦，陈牧谦，王美琪，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人