文本中人物关系提取方法及装置、计算机设备和存储介质制造方法及图纸

技术编号：23765875 阅读：44 留言：0更新日期：2020-04-11 19:48

本发明专利技术提供了一种文本中人物关系提取方法，包括：获取待分析的文本数据；将所述待分析文本数据拆分为若干句子；从所述若干句子中识别人物实体，若句子中存在少于2个人物实体，则丢弃该句子，若句子中存在2个及以上的人物实体，则将人物实体组合为不同的人物实体对，然后将文本整合为人物实体对和句子的映射关系组合，即{(人物1，人物2)：(句子)}；将所述映射关系组合输入至预先构建好的人物关系提取模型，得到人物关系。从而解决现有技术中无法自动提取文本中人物关系的问题，此外，借鉴主动学习的思想，通过构建选择分类器的方式，降低了采用远程监督的方式标注训练语料存在的大量噪音，从而提高人物关系识别的精度。

Methods and devices for extracting human relations in texts, computer equipment and storage media

全部详细技术资料下载

【技术实现步骤摘要】
文本中人物关系提取方法及装置、计算机设备和存储介质
本专利技术涉及人工智能
，尤指一种文本中人物关系提取方法及装置、计算机设备和存储介质。
技术介绍
随着信息时代的飞速发展，海量的文本信息迅速爆炸式增长。人们已经不再满足于手工分析这样低效的方式来获取文本的知识。人们期望以更智能的方式快速、高效的梳理文本中的内容，获取自己想要的知识。而今，随着自然语言处理技术的发展，特别是人工智能算法在自然语言处理领域的深度应用，为高效实现文本知识提取奠定了技术基础。但是人工智能在知识抽取领域的有效应用需要依赖高质量的标注文本。目前，关系提取领域多采用远程监督的方法来迅速获取大规模的训练语料。远程监督是指如果训练语料中的句子所包含的实体对在知识库中有关系的体现，那么就认为语料库中所有包含相应该实体对的句子都为相应的关系。进而会导致一种情况，远程监督的训练方式，在高效的同时，也存在使得训练语料中含有较多噪音的问题，因此导致人物关系提取精度不高的问题。减小训练语料的标注噪音，具有非常重要的意义。
技术实现思路
本专利技术实施例的目的是提供一种文本中人物关系提取方法及装置、计算机设备和存储介质，主要克服现有文本关系识别中，采用远程监督的方式在中文文本中，人物关系提取不准确的问题。为解决上述问题，第一方面，本专利技术实施例提供了一种文本中人物关系提取的方法，所述方法包括：获取待分析的文本数据；将所述待分析文本数据拆分为若干句子；从所述若干句子中识别人物实体，若句子中存在...

【技术保护点】
1.一种文本中人物关系提取方法，其特征在于，所述方法包括：/n获取待分析的文本数据；/n将所述待分析文本数据拆分为若干句子；/n从所述若干句子中识别人物实体，若句子中存在少于2个人物实体，则丢弃该句子，若句子中存在2个及以上的人物实体，则将人物实体组合为不同的人物实体对，然后将文本整合为人物实体对和句子的映射关系组合，即/n{(人物1，人物2)：(句子)}；/n将所述映射关系组合输入至预先构建好的人物关系提取模型，得到人物关系。/n

【技术特征摘要】
1.一种文本中人物关系提取方法，其特征在于，所述方法包括：
获取待分析的文本数据；
将所述待分析文本数据拆分为若干句子；
从所述若干句子中识别人物实体，若句子中存在少于2个人物实体，则丢弃该句子，若句子中存在2个及以上的人物实体，则将人物实体组合为不同的人物实体对，然后将文本整合为人物实体对和句子的映射关系组合，即
{(人物1，人物2)：(句子)}；
将所述映射关系组合输入至预先构建好的人物关系提取模型，得到人物关系。

2.如权利要求1所述文本中人物关系提取方法，其特征在于，所述人物关系提取模型的构建具体包括：
获取训练语料库；
将训练语料库中的文本数据转换为特征向量；
将所述特征向量输入到基于注意力机制的双向门限循环神经网络进行训练从而得到人物关系提取模型。

3.如权利要求2所述文本中人物关系提取方法，其特征在于，所述获取训练语料库具体包括：
预先定义人物关系类别及人物实体列表；
基于远程监督学习，用所述人物实体列表中的人物实体及其关系对，以及利用从知识库中获取的人物关系对抓取的文本数据进行标注，建立训练语料库为S。

4.如权利要求3所述的文本中人物关系提取方法，其特征在于，所述方法还包括：
在所述语料库S中，平均选取各个关系类别中的数据，进行人工校验标注，获取训练语料A，语料库S中剩余语料标记为B；
在所述训练语料A上训练选择分类器，所述选择分类器的构建包括：根据人物实体在文本中的位置以及文本中各个词距离人物实体的距离构建特征向量，并基于所述特征向量和SVM分类模型构建所述选择分类器；
将训练好的选择分类器应用在剩余语料B中，并设定置信度值阈值，将选择分类器在剩余语料B中提取的高于置信度阈值的语料加入到训练语料A中；
将在剩余语料B中提取的低于置信度阈值的语料进行人工的关系标注；
再将标注关系的数据加入到训练语料A中，基于新的训练语料A训练选择分类器，直到语料中的数据集达到预定的规模。

5.如权利要求4所述的文本中人物关系提取方法，其特征在于，所述将训练语料库中的文本数据转换为特征向量具体包括：
对句子进行分词，得到s＝{w1，...，wn}，其中s表示句子，S是一个矩阵，wi表示词语；将每个词转换为词向量，获得Kw维的词向量嵌入{w1，...，wn}，每一个词w用一个维度为Kw的词向量表示；
将句子中的每个词距离人物实体的距离作为距离向量，以及每个人物实体在句子中的位置作为位置向量，将距离向量和...

【专利技术属性】
技术研发人员：王海波，王飞，
申请(专利权)人：智器云南京信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人