一种基于网页正文的人物属性提取方法技术

技术编号：36116335 阅读：12 留言：0更新日期：2022-12-28 14:20

本发明专利技术公开了一种基于网页正文的人物属性提取方法，包括以下步骤：S1、获取目标人物的相关网页，从网页中提取出包含人物属性信息的正文文本，并对正文文本进行文本分词；S2、根据人物属性，选择包含分类信息的词元属性；S3、构建特征：使用命名实体、依存关系作为额外的词元标注，并构建基于静态词表的状态特征，同时使用依存句法树的上下文关系来构建转移特征；S4、将状态特征和转移特征作为最大熵算法的约束，训练分类模型。本发明专利技术在复杂网络环境中，获取感兴趣的目标人物的网页的正文，通过合理地选取和构造特征，使用最大熵算法实现了在复杂网络环境中提取人物特征的方法。网络环境中提取人物特征的方法。网络环境中提取人物特征的方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网页正文的人物属性提取方法

[0001]本专利技术涉及人物属性提取，特别是基于网页正文的人物属性提取方法。

技术介绍

[0002]随着互联网的普及和快速发展，互联网技术的日益成熟以及人们的需求日益多元化使得互联网服务呈现出了专业细分的趋势并在吸引了数量庞大的互联网用户，各式各样的互联网服务还承载了海量的用户数据，这样的数据往往是碎片化的，根据网络平台的不同，其数据格式也存在差异，但相当一部分的信息都以文本的形式存在于网络中。
[0003]网页正文中的人物属性提取问题，目的为在网络中检索人物相关文档，并从文档中提取人物属性。现有的基于网页正文的人物属性提取研究已形成数种方法，但依旧存在一些局限性。一方面，在根据目的人物属性寻找可能包含信息的词法、句法特征时，现有方法通常只依据词性、词元位置等单一信息来提取人物的属性，没有充分利用网页文本中的高级特征和一些上下文特征等，导致人物信息缺失；另一方面，在文本处理模型的选择上，通常都是使用条件随机场等判别式模型，而很少考虑模型在样本整体上的信息。
[0004]基于网页正文的人物属性抽取的目标是从网页中获取特定实体的属性信息，而网页中的人物属性大多以文本形式存在，在提取正文既定的前提下，可将问题转化为从文本数据中提取特定实体的属性信息，比如实体的姓名、国籍、职位等。通过对于特定人物实体的属性抽取，获取多个数据源的实体属性，就可以通过处理这些属性信息来完成人物画像的构建。当今常用的属性抽取模型主要分两种：基于序列标注的方法和基于HTML网页的方法。
...

【技术保护点】

【技术特征摘要】
1.一种基于网页正文的人物属性提取方法，其特征在于，包括以下步骤：S1、获取目标人物的相关网页，从网页中提取出包含人物属性信息的正文文本，并对正文文本进行文本分词；S2、根据人物属性，选择包含分类信息的词元属性；S3、构建特征：使用命名实体、依存关系作为额外的词元标注，并构建基于静态词表的状态特征，同时使用依存句法树的上下文关系来构建转移特征；S4、将状态特征和转移特征作为最大熵算法的约束，训练分类模型。2.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S1中的相关网页包括在线百科、个人网站、机构主页和社交平台个人账号。3.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S1中，将单词作为分词的粒度。4.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S2中，分词处理后的正文文本是一个词元序列，分词的最小语义单元即为序列的词元；在人物属性提取任务中，人物属性信息就包含在词元本身的属性以及词元上下文的关系中；使用的词元属性包括以下几种：1)“text”属性的属性值为词元的原始文本；保留词元的原始文本作为词元属性；在后续特征构建中，对照静态词表，匹配人物属性中高频出现的单词；2)“lemma”属性是词元的原型，使用“lemma”属性作为词元属性来消除歧义，作为“text”属性的辅助属性进行标注；3)“shape”属性代表词元的大小写格式；4)“pos”属性表示词元的词类；5)“index”是指词元在文本序列中的索引值；6)“prefix”和“suffix”分别代表词元的前缀和后缀。5.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S3中的状态特征包括：1)“word_list”特征为当前词元的“text”和“lemma”属性是否包含于静态词表的判断；2)“prefix_list”、“suffix_list”分别为前缀、后缀的静态词表，使用静态前、后缀表作为特征函数来进行前后缀的选择；3)“ent”表示词元的命名实体类别，使用命名实体属性来作为特征函数；转移特征包括：4)“dep”表示词元的依存关系，该属性反映的是词元在句法和语义上的依存特征；依存句法关系用一棵依存关系树来表示，使用条件依存关系来作为特征函数。6.根据权利要求1所述的一种基于网页正文的人...

【专利技术属性】
技术研发人员：费高雷，高隽逸，胡光岷，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人