一种基于网页正文的人物属性提取方法技术

技术编号:36116335 阅读:12 留言:0更新日期:2022-12-28 14:20
本发明专利技术公开了一种基于网页正文的人物属性提取方法,包括以下步骤:S1、获取目标人物的相关网页,从网页中提取出包含人物属性信息的正文文本,并对正文文本进行文本分词;S2、根据人物属性,选择包含分类信息的词元属性;S3、构建特征:使用命名实体、依存关系作为额外的词元标注,并构建基于静态词表的状态特征,同时使用依存句法树的上下文关系来构建转移特征;S4、将状态特征和转移特征作为最大熵算法的约束,训练分类模型。本发明专利技术在复杂网络环境中,获取感兴趣的目标人物的网页的正文,通过合理地选取和构造特征,使用最大熵算法实现了在复杂网络环境中提取人物特征的方法。网络环境中提取人物特征的方法。网络环境中提取人物特征的方法。

【技术实现步骤摘要】
一种基于网页正文的人物属性提取方法


[0001]本专利技术涉及人物属性提取,特别是基于网页正文的人物属性提取方法。

技术介绍

[0002]随着互联网的普及和快速发展,互联网技术的日益成熟以及人们的需求日益多元化使得互联网服务呈现出了专业细分的趋势并在吸引了数量庞大的互联网用户,各式各样的互联网服务还承载了海量的用户数据,这样的数据往往是碎片化的,根据网络平台的不同,其数据格式也存在差异,但相当一部分的信息都以文本的形式存在于网络中。
[0003]网页正文中的人物属性提取问题,目的为在网络中检索人物相关文档,并从文档中提取人物属性。现有的基于网页正文的人物属性提取研究已形成数种方法,但依旧存在一些局限性。一方面,在根据目的人物属性寻找可能包含信息的词法、句法特征时,现有方法通常只依据词性、词元位置等单一信息来提取人物的属性,没有充分利用网页文本中的高级特征和一些上下文特征等,导致人物信息缺失;另一方面,在文本处理模型的选择上,通常都是使用条件随机场等判别式模型,而很少考虑模型在样本整体上的信息。
[0004]基于网页正文的人物属性抽取的目标是从网页中获取特定实体的属性信息,而网页中的人物属性大多以文本形式存在,在提取正文既定的前提下,可将问题转化为从文本数据中提取特定实体的属性信息,比如实体的姓名、国籍、职位等。通过对于特定人物实体的属性抽取,获取多个数据源的实体属性,就可以通过处理这些属性信息来完成人物画像的构建。当今常用的属性抽取模型主要分两种:基于序列标注的方法和基于HTML网页的方法。
[0005]1、基于序列标注的属性提取方法
[0006]对于文本数据,人物属性问题可以转换为序列标注问题。文本数据可以看作是一个线性序列,而文本数据中的词元即对应序列中的元素,每一个词元的属性信息对应序列标签和属性值,最后使用序列标注模型进行训练和抽取。将属性抽取看作序列标注问题,可以采用BIO、BIOE等标注方法。标注需要花费一定的人工成本,在人物属性的抽取的场景下,可以使用百度百科等百科词条的结构化信息框进行标注,可以降低一定的人工标注成本;同时,标注时也可以使用Bootstrap方法由种子发现更多潜在属性值。
[0007]序列标注常使用的模型有CRF模型、神经网络模型如BiGRU+CRF模型等。近年来,预训练语言模型在自然语言处理中得到了较为广泛的应用,在基于序列标注的属性抽取中,依然可以使用bert等预训练语言模型进行特征抽取,经典模型框架为bert+BiLSTM+CRF模型。由于属性值的内容和形式多种多样,对于字数较长的描述性属性,往往不能取得理想的效果;对于序列的标注,常会耗费大量的人工成本,降低了模型的扩展性,并无法解决多属性值问题;对于序列标注的属性选择,现有方法一般从词法角度只考虑词元的词性、前后缀等初级特征,对于一些信息比较明显的高级特征考虑较少,而从句法角度考虑词元直接位置上的上下文特征对于词元在语义上的信息反映不完全。
[0008]2、基于HTML网页的属性提取方法
[0009]网络中每个网页都基于HTML规范,从代码结构上看,网页你内容都是以DOM树呈现的。DOM(文档对象模型)构成的基本要素是“节点”,而网页的结构就是由层次化的节点组成。在DOM模型中,整个网页文档就是一个文档(Document)节点,每个文档节点都拥有一个根(Root)节点,根节点下则含有众多功能不同的节点,而节点互相之间存在父子、兄弟等层级关系。
[0010]在DOM树中天然存在实体

属性名

属性值关系,目的人物属性往往存在于特定节点的属性值中。在研究中常利用CNN和LSTM对节点的内容进行字母级别和单词级别的编码,和XPath编码、位置编码、叶子类型编码、语义相似度编码拼接成节点编码,结合属性所在源文本编码,首先用二分类器判断是否存在属性值,再抽取出属性值,利用节点编码通过多分类器进行属性名预测。
[0011]现有基于网页正文的人物属性提取方法一般思路可以概括为4个基本步骤:在文本层级对网页正文进行序列标注,产生文本序列;根据目的人物属性选定词元属性;在词元属性的基础上,使用词法和句法层级的特征,构建模型特征函数;训练模型,完成预测。对于人物属性提取的词元属性选取,现有方法一般考量的都是词元本身的初级特征以及词元顺序上的位置特征,一些表征能力强的高级特征和相对位置特征使用较少,构建的特征函数丢失部分表征能力;对于预测模型的选取,现有方法一般都是使用条件随机场等判别式模型,而很少考虑人物属性在整体上的分布,泛化能力弱,在工程环境中表现不佳。

技术实现思路

[0012]本专利技术的目的在于克服现有技术的不足,提供一种在复杂网络环境中,获取感兴趣的目标人物的网页的正文,通过合理地选取和构造特征,使用最大熵算法实现了在复杂网络环境中提取人物特征的方法。
[0013]本专利技术的目的是通过以下技术方案来实现的:一种基于网页正文的人物属性提取方法,包括以下步骤:
[0014]S1、获取目标人物的相关网页,从网页中提取出包含人物属性信息的正文文本,并对正文文本进行文本分词;
[0015]S2、根据人物属性,选择包含分类信息的词元属性;
[0016]S3、构建特征:使用命名实体、依存关系作为额外的词元标注,并构建基于静态词表的状态特征,同时使用依存句法树的上下文关系来构建转移特征;
[0017]S4、将状态特征和转移特征作为最大熵算法的约束,训练分类模型。
[0018]所述步骤S1中的相关网页包括在线百科、个人网站、机构主页和社交平台个人账号。将单词作为分词的粒度。
[0019]进一步地,所述步骤S2中,分词处理后的正文文本是一个词元序列,分词的最小语义单元即为序列的词元;在人物属性提取任务中,人物属性信息就包含在词元本身的属性以及词元上下文的关系中;使用的词元属性包括以下几种:
[0020]1)“text”属性的属性值为词元的原始文本;保留词元的原始文本作为词元属性;在后续特征构建中,对照静态词表,匹配人物属性中高频出现的单词;
[0021]2)“lemma”属性是词元的原型,使用“lemma”属性作为词元属性来消除歧义,作为“text”属性的辅助属性进行标注;
[0022]3)“shape”属性代表词元的大小写格式;
[0023]4)“pos”属性表示词元的词类;
[0024]5)“index”是指词元在文本序列中的索引值;
[0025]6)“prefix”和“suffix”分别代表词元的前缀和后缀。
[0026]所述步骤S3中的状态特征包括:
[0027]1)“word_list”特征为当前词元的“text”和“lemma”属性是否包含于静态词表的判断;
[0028]2)“prefix_list”、“suffix_list”分别为前缀、后缀的静态词表,使用静态前、后缀表作为特征函数来进行前后缀的选择;
[0029]3)“e本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网页正文的人物属性提取方法,其特征在于,包括以下步骤:S1、获取目标人物的相关网页,从网页中提取出包含人物属性信息的正文文本,并对正文文本进行文本分词;S2、根据人物属性,选择包含分类信息的词元属性;S3、构建特征:使用命名实体、依存关系作为额外的词元标注,并构建基于静态词表的状态特征,同时使用依存句法树的上下文关系来构建转移特征;S4、将状态特征和转移特征作为最大熵算法的约束,训练分类模型。2.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S1中的相关网页包括在线百科、个人网站、机构主页和社交平台个人账号。3.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S1中,将单词作为分词的粒度。4.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S2中,分词处理后的正文文本是一个词元序列,分词的最小语义单元即为序列的词元;在人物属性提取任务中,人物属性信息就包含在词元本身的属性以及词元上下文的关系中;使用的词元属性包括以下几种:1)“text”属性的属性值为词元的原始文本;保留词元的原始文本作为词元属性;在后续特征构建中,对照静态词表,匹配人物属性中高频出现的单词;2)“lemma”属性是词元的原型,使用“lemma”属性作为词元属性来消除歧义,作为“text”属性的辅助属性进行标注;3)“shape”属性代表词元的大小写格式;4)“pos”属性表示词元的词类;5)“index”是指词元在文本序列中的索引值;6)“prefix”和“suffix”分别代表词元的前缀和后缀。5.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S3中的状态特征包括:1)“word_list”特征为当前词元的“text”和“lemma”属性是否包含于静态词表的判断;2)“prefix_list”、“suffix_list”分别为前缀、后缀的静态词表,使用静态前、后缀表作为特征函数来进行前后缀的选择;3)“ent”表示词元的命名实体类别,使用命名实体属性来作为特征函数;转移特征包括:4)“dep”表示词元的依存关系,该属性反映的是词元在句法和语义上的依存特征;依存句法关系用一棵依存关系树来表示,使用条件依存关系来作为特征函数。6.根据权利要求1所述的一种基于网页正文的人...

【专利技术属性】
技术研发人员:费高雷高隽逸胡光岷
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1