文本中人物关系提取方法及装置、计算机设备和存储介质制造方法及图纸

技术编号:23765875 阅读:44 留言:0更新日期:2020-04-11 19:48
本发明专利技术提供了一种文本中人物关系提取方法,包括:获取待分析的文本数据;将所述待分析文本数据拆分为若干句子;从所述若干句子中识别人物实体,若句子中存在少于2个人物实体,则丢弃该句子,若句子中存在2个及以上的人物实体,则将人物实体组合为不同的人物实体对,然后将文本整合为人物实体对和句子的映射关系组合,即{(人物1,人物2):(句子)};将所述映射关系组合输入至预先构建好的人物关系提取模型,得到人物关系。从而解决现有技术中无法自动提取文本中人物关系的问题,此外,借鉴主动学习的思想,通过构建选择分类器的方式,降低了采用远程监督的方式标注训练语料存在的大量噪音,从而提高人物关系识别的精度。

Methods and devices for extracting human relations in texts, computer equipment and storage media

【技术实现步骤摘要】
文本中人物关系提取方法及装置、计算机设备和存储介质
本专利技术涉及人工智能
,尤指一种文本中人物关系提取方法及装置、计算机设备和存储介质。
技术介绍
随着信息时代的飞速发展,海量的文本信息迅速爆炸式增长。人们已经不再满足于手工分析这样低效的方式来获取文本的知识。人们期望以更智能的方式快速、高效的梳理文本中的内容,获取自己想要的知识。而今,随着自然语言处理技术的发展,特别是人工智能算法在自然语言处理领域的深度应用,为高效实现文本知识提取奠定了技术基础。但是人工智能在知识抽取领域的有效应用需要依赖高质量的标注文本。目前,关系提取领域多采用远程监督的方法来迅速获取大规模的训练语料。远程监督是指如果训练语料中的句子所包含的实体对在知识库中有关系的体现,那么就认为语料库中所有包含相应该实体对的句子都为相应的关系。进而会导致一种情况,远程监督的训练方式,在高效的同时,也存在使得训练语料中含有较多噪音的问题,因此导致人物关系提取精度不高的问题。减小训练语料的标注噪音,具有非常重要的意义。
技术实现思路
本专利技术实施例的目的是提供一种文本中人物关系提取方法及装置、计算机设备和存储介质,主要克服现有文本关系识别中,采用远程监督的方式在中文文本中,人物关系提取不准确的问题。为解决上述问题,第一方面,本专利技术实施例提供了一种文本中人物关系提取的方法,所述方法包括:获取待分析的文本数据;将所述待分析文本数据拆分为若干句子;从所述若干句子中识别人物实体,若句子中存在少于2个人物实体,则丢弃该句子,若句子中存在2个及以上的人物实体,则将人物实体组合为不同的人物实体对,然后将文本整合为人物实体对和句子的映射关系组合,即{(人物1,人物2):(句子)};将所述映射关系组合输入至预先构建好的人物关系提取模型,得到人物关系。优选地,所述人物关系提取模型的构建具体包括:将训练语料库中的文本数据转换为特征向量;将所述特征向量输入到基于注意力机制的双向门限循环神经网络进行训练从而得到人物关系提取模型。优选地,所述获取训练语料库具体包括:预先定义人物关系类别及人物实体列表;基于远程监督学习,用所述人物实体列表中的人物实体及其关系对,以及利用从知识库中获取的人物关系对抓取的文本数据进行标注,建立训练语料库为S。优选地,所述方法还包括:在所述语料库S中,平均选取各个关系类别中的数据,进行人工校验标注,获取训练语料A,语料库S中剩余语料标记为B;在所述训练语料A上训练所述选择分类器,所述选择分类器的构建包括:根据人物实体在文本中的位置以及文本中各个词距离人物实体的距离构建特征向量,并基于所述特征向量和SVM分类模型构建所述选择分类器;将训练好的选择分类器应用在剩余语料B中,并设定置信度值阈值,将选择分类器在剩余语料B中提取的高于置信度阈值的语料加入到训练语料A中;将在剩余语料B中提取的低于置信度阈值的语料进行人工的关系标注;再将标注关系的数据加入到训练语料A中,基于新的训练语料A训练选择分类器,直到语料中的数据集达到预定的规模。优选地,所述语料库的文本特征具体包括:对句子进行分词,得到s={w1,…,wn},其中s表示句子,S是一个矩阵,wi表示词语;将每个词转换为词向量,获得Kw维的词向量嵌入{w1,...,wn},每一个词w用一个维度为Kw的词向量表示;将句子中的每个词距离人物实体的距离作为距离向量,以及每个人物实体在句子中的位置作为位置向量,将距离向量和位置向量连接,构成一个维度为kp的位置特征向量;将词向量和位置特征向量拼接作为句子的特征向量xi,xi的维度为:ki=kw+kp×2。第二方面,本专利技术实施例还提供了一种文本中人物关系提取装置,所述装置包括:文本获取模块,用于获取待分析的文本数据;文本处理模块,用于将所述待分析文本数据拆分为若干句子;实体获取模块,用于从所述若干句子中识别人物实体,若句子中存在少于2个人物实体,则丢弃该句子,若句子中存在2个及以上的人物实体,则将人物实体组合为不同的人物实体对,然后将文本整合为人物实体对和句子的映射关系组合,即{(人物1,人物2):(句子)};关系提取模块,用于将所述映射关系组合输入至预先构建好的人物关系提取模型,得到人物关系。优选地,所述关系提取模块还包括:文本特征表示单元,用于获取训练语料库,将所述训练语料库中的文本数据转换为特征向量;训练单元,用于将所述特征向量输入到基于注意力机制的双向门限循环神经网络进行训练从而得到人物关系提取模型。优选地,所述关系提取模块还包括语料降噪单元,用于:在所述语料库S中,平均选取各个关系类别中的数据,进行人工校验标注,获取训练语料A,语料库S中剩余语料标记为B;在所述训练语料A上训练所述选择分类器,所述选择分类器的构建包括:根据人物实体在文本中的位置以及文本中各个词距离人物实体的距离构建特征向量,并基于所述特征向量和SVM分类模型构建所述选择分类器;将训练好的选择分类器应用在剩余语料B中,并设定置信度值阈值,将选择分类器在剩余语料B中提取的高于置信度阈值的语料加入到训练语料A中;将在剩余语料B中提取的低于置信度阈值的语料进行人工的关系标注;再将标注关系的数据加入到训练语料A中,基于新的训练语料A训练选择分类器,直到语料中的数据集达到预定的规模。第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:一个或更多个处理器;一个或更多个存储器;一个或更多个模块,其被存在存储器中且能够由所述一个或更多个处理器中的至少一个处理器以执行如第一方面所述文本中人物关系提取方法的步骤。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时如第一方面所述文本中人物关系提取方法的步骤。本专利技术实施例提供了的人物关系提取方法,基于注意力机制的双向门限循环神经网络进行提取中文文本关系的模型训练,相比于以往的卷积神经网络提取人物关系可以取得更好的效果,人物关系提取更为准确;另外,由于现有技术的远程监督方法中训练语料存在大量噪声的问题,本专利技术提供了一种从文本中应用之前所述的关系模型提取文本中人物关系,并对语料库进行降噪的方法,从而更为大幅度地提高了人物关系提取的精度。附图说明下面将以明确易懂的方式,结合附图说明优选实施方式,对异步系统的实现方法、计算机设备和存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。图1是本专利技术实施例中一种文本中人物关系提取方法的流程图;图2是本专利技术实施例中一种文本中人物关系提取装置的结构图;图3是本专利技术实施例中另一种文本中人物关系提取装置的结构图;图4是本专利技术实施例中另一种文本中人物关系提取装置的结构图;图5是本本文档来自技高网...

【技术保护点】
1.一种文本中人物关系提取方法,其特征在于,所述方法包括:/n获取待分析的文本数据;/n将所述待分析文本数据拆分为若干句子;/n从所述若干句子中识别人物实体,若句子中存在少于2个人物实体,则丢弃该句子,若句子中存在2个及以上的人物实体,则将人物实体组合为不同的人物实体对,然后将文本整合为人物实体对和句子的映射关系组合,即/n{(人物1,人物2):(句子)};/n将所述映射关系组合输入至预先构建好的人物关系提取模型,得到人物关系。/n

【技术特征摘要】
1.一种文本中人物关系提取方法,其特征在于,所述方法包括:
获取待分析的文本数据;
将所述待分析文本数据拆分为若干句子;
从所述若干句子中识别人物实体,若句子中存在少于2个人物实体,则丢弃该句子,若句子中存在2个及以上的人物实体,则将人物实体组合为不同的人物实体对,然后将文本整合为人物实体对和句子的映射关系组合,即
{(人物1,人物2):(句子)};
将所述映射关系组合输入至预先构建好的人物关系提取模型,得到人物关系。


2.如权利要求1所述文本中人物关系提取方法,其特征在于,所述人物关系提取模型的构建具体包括:
获取训练语料库;
将训练语料库中的文本数据转换为特征向量;
将所述特征向量输入到基于注意力机制的双向门限循环神经网络进行训练从而得到人物关系提取模型。


3.如权利要求2所述文本中人物关系提取方法,其特征在于,所述获取训练语料库具体包括:
预先定义人物关系类别及人物实体列表;
基于远程监督学习,用所述人物实体列表中的人物实体及其关系对,以及利用从知识库中获取的人物关系对抓取的文本数据进行标注,建立训练语料库为S。


4.如权利要求3所述的文本中人物关系提取方法,其特征在于,所述方法还包括:
在所述语料库S中,平均选取各个关系类别中的数据,进行人工校验标注,获取训练语料A,语料库S中剩余语料标记为B;
在所述训练语料A上训练选择分类器,所述选择分类器的构建包括:根据人物实体在文本中的位置以及文本中各个词距离人物实体的距离构建特征向量,并基于所述特征向量和SVM分类模型构建所述选择分类器;
将训练好的选择分类器应用在剩余语料B中,并设定置信度值阈值,将选择分类器在剩余语料B中提取的高于置信度阈值的语料加入到训练语料A中;
将在剩余语料B中提取的低于置信度阈值的语料进行人工的关系标注;
再将标注关系的数据加入到训练语料A中,基于新的训练语料A训练选择分类器,直到语料中的数据集达到预定的规模。


5.如权利要求4所述的文本中人物关系提取方法,其特征在于,所述将训练语料库中的文本数据转换为特征向量具体包括:
对句子进行分词,得到s={w1,...,wn},其中s表示句子,S是一个矩阵,wi表示词语;将每个词转换为词向量,获得Kw维的词向量嵌入{w1,...,wn},每一个词w用一个维度为Kw的词向量表示;
将句子中的每个词距离人物实体的距离作为距离向量,以及每个人物实体在句子中的位置作为位置向量,将距离向量和...

【专利技术属性】
技术研发人员:王海波王飞
申请(专利权)人:智器云南京信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1