基于非对称核函数的文本信息实体关系抽取方法及系统技术方案

技术编号:39307100 阅读:9 留言:0更新日期:2023-11-12 15:54
本发明专利技术公开一种基于非对称核函数的文本信息实体关系抽取方法及系统,涉及实体关系抽取技术领域,包括:获取目标文本的句子向量、实体掩码和关系掩码;所述关系掩码中包括实体词的掩码、处于实体词窗口内的周围词的动态掩码和处于实体词窗口外的边缘词的掩码;对句子向量进行特征编码;根据得到的特征向量和实体掩码得到实体向量,根据特征向量和关系掩码得到关系向量,将实体向量和关系向量作为参数以构建非对称核函数;根据非对称核函数确定目标实体对与每个关系的关联度,由此确定目标实体对在目标文本中的关系。实现对关系语义的聚焦,具有良好的可解释性。具有良好的可解释性。具有良好的可解释性。

【技术实现步骤摘要】
基于非对称核函数的文本信息实体关系抽取方法及系统


[0001]本专利技术涉及实体关系抽取
,特别是涉及一种基于非对称核函数的文本信息实体关系抽取方法及系统。

技术介绍

[0002]在对非结构化原始文本中的命名实体识别后,利用关系抽取确定实体之间的关系类型,从而获取实体和关系三元组,通过三元组理解文本语义。
[0003]目前卷积神经网络被用来提取句子中的词汇级特征和语句级特征,然后再通过卷积层映射为高层次特征用于关系分类。研究人员发现,卷积神经网络对于较短的句子能够提取出较好的特征,这是因为卷积神经网络使用卷积核能够充分提取局部的特征信息;然而对于长句子,卷积神经网络的效果明显下降。
[0004]循环神经网络因为能够处理长序列信息,所以被用于关系抽取。然而,由于循环神经网络是逐词积累句子语义,随着序列长度的增加,一开始的语义会被遗忘消除,不适合抽取具有长期依赖关系的语义信息。
[0005]Bert模型(BidirectionalEncoder Representations from Transformer,基于Transformer架构的预训练模型)因其具有提取丰富语义特征的能力,逐渐替代传统循环神经网络,在关系抽取领域成为主流特征提取网络。但是,仍存在以下问题:(1)通过Bert模型或其变体模型编码特征向量后,通常将语句级或词汇级的特征向量送入复杂的网络结构进行语义提取,会导致模型参数量过大,训练速度慢,训练成本高等问题,不利于实际应用。
[0006](2)现有研究经常使用额外的知识(例如知识库、语法依赖树等)提高模型性能,在收集额外知识时不仅会增加人力,而且面对特殊领域知识的情况下,还需要一定的知识门槛。
[0007](3)现有研究专注于特征工程,忽略语句中最基本的关系信息,无法准确理解实体之间的关系语义。
[0008](4)现有研究几乎都是使用一个线性层映射实体关系类型的概率分布,这种方式缺乏可解释性,而且会造成语义特征的丢失。

技术实现思路

[0009]为了解决上述问题,本专利技术提出了一种基于非对称核函数的文本信息实体关系抽取方法及系统,设计可变的关系掩码以提取更精确的实体关系语义信息,实现对实体关系语义的聚焦,使用非对称核函数计算目标实体对属于每个关系类别的概率值,具有良好的可解释性。
[0010]为了实现上述目的,本专利技术采用如下技术方案:第一方面,本专利技术提供一种基于非对称核函数的文本信息实体关系抽取方法,包括:
获取目标文本的句子向量、实体掩码和关系掩码;所述关系掩码中包括实体词的掩码、处于实体词窗口内的周围词的动态掩码和处于实体词窗口外的边缘词的掩码;对句子向量进行特征编码;根据得到的特征向量和实体掩码得到实体向量,根据特征向量和关系掩码得到关系向量,将实体向量和关系向量作为参数以构建非对称核函数;根据非对称核函数确定目标实体对与每个关系的关联度,由此确定目标实体对在目标文本中的关系。
[0011]作为可选择的实施方式,所述句子向量为对目标文本通过词典进行映射得到;所述实体掩码为用0表示词被遮掩,用1表示词无遮掩的形式构造得到;所述关系掩码中实体词窗口的大小可调。
[0012]作为可选择的实施方式,将特征向量与实体掩码进行矩阵运算后得到实体向量;其中,特征向量中实体词对应的特征值与实体掩码中的数值1相乘,非实体词对应的特征值与实体掩码中的数值0相乘。
[0013]作为可选择的实施方式,实体向量为:
[0014][0015][0016]其中,为矩阵乘法运算;为对特征向量进行缩放的参数;为词向量最大维度;是超参数;为特征向量,为实体掩码。
[0017]作为可选择的实施方式,将特征向量和关系掩码进行逐元素乘法运算后得到关系向量;其中,特征向量中处于实体词窗口内的周围词与关系掩码中的非0数值相乘,以增强或削弱周围词的特征值;处于实体词窗口外的边缘词与关系掩码中的常数值相乘,边缘词的特征值保持不变。
[0018]作为可选择的实施方式,关系向量为:
[0019][0020]其中,为向量逐元素乘法;为向量拼接;为关系个数;为特征向量,、为不同实体词窗口设置的第个关系的关系掩码;为对特征向量进行缩放的参数。
[0021]作为可选择的实施方式,将头实体向量和尾实体向量拼接后作为非对称核函数的参数,将关系向量作为非对称核函数的参数;
[0022]其中,参数和参数分别为:
[0023][0024][0025]其中,是实体向量中的元素;、和均是参数矩阵;、和是偏置项;是激活函数;zip是打包函数,为关系向量。
[0026]作为可选择的实施方式,非对称核函数为:
[0027][0028]其中,和是参数和参数对应的参数矩阵;|| ||2是二阶范数。
[0029]作为可选择的实施方式,根据非对称核函数确定目标实体对与每个关系的关联度的过程包括:将参数和参数分别与对应的参数矩阵相乘后得到参数和,基于广播机制计算之间的距离,利用向量二阶范数显示化目标实体对与每个关系的距离,使用指数函数归一化距离后得到目标实体对与各关系类别的关联度,以关联度最大的关系类别作为目标实体对在目标文本中的关系。
[0030]第二方面,本专利技术提供一种基于非对称核函数的文本信息实体关系抽取系统,包括:数据获取模块,被配置为获取目标文本的句子向量、实体掩码和关系掩码;所述关系掩码中包括实体词的掩码、处于实体词窗口内的周围词的动态掩码和处于实体词窗口外的边缘词的掩码;特征编码模块,被配置为对句子向量进行特征编码;函数构建模块,被配置为根据得到的特征向量和实体掩码得到实体向量,根据特征向量和关系掩码得到关系向量,将实体向量和关系向量作为参数以构建非对称核函数;关系抽取模块,被配置为根据非对称核函数确定目标实体对与每个关系的关联度,由此确定目标实体对在目标文本中的关系。
[0031]与现有技术相比,本专利技术的有益效果为:本专利技术设计可变的动态关系掩码以提取更精确的关系语义,关系掩码通过自身的迭代更新,为每个关系生成最适合的关系掩码,相比于直接使用句子的表征语义(即语句级或词汇级的特征),动态关系掩码提取的关系语义信息具有更少的噪声,更有利于关系的抽取。
[0032]本专利技术使用固定窗口的动态关系掩码来实现对关系语义的聚焦,通过调整窗口的大小,可以改变对关系语义的聚焦程度;且本专利技术没有使用复杂的网络结构和额外知识,是一个简单有效的关系抽取方法。
[0033]本专利技术使用非对称核函数替换线性层来计算每个关系类别的概率值,通过非对称核函数,将低维空间向量映射到高维空间向量,将头实体向量和尾实体向量拼接后作为非对称核函数的参数X,将关系向量作为非对称核函数的参数Y,可以更好的表达出实体与每个关系之间的关联程度,具有良好的可解释性。
[0034]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0035]构成本专利技术的一部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于非对称核函数的文本信息实体关系抽取方法,其特征在于,包括:获取目标文本的句子向量、实体掩码和关系掩码;所述关系掩码中包括实体词的掩码、处于实体词窗口内的周围词的动态掩码和处于实体词窗口外的边缘词的掩码;对句子向量进行特征编码;根据得到的特征向量和实体掩码得到实体向量,根据特征向量和关系掩码得到关系向量,将实体向量和关系向量作为参数以构建非对称核函数;根据非对称核函数确定目标实体对与每个关系的关联度,由此确定目标实体对在目标文本中的关系。2.如权利要求1所述的基于非对称核函数的文本信息实体关系抽取方法,其特征在于,所述句子向量为对目标文本通过词典进行映射得到;所述实体掩码为用0表示词被遮掩,用1表示词无遮掩的形式构造得到;所述关系掩码中实体词窗口的大小可调。3.如权利要求1所述的基于非对称核函数的文本信息实体关系抽取方法,其特征在于,将特征向量与实体掩码进行矩阵运算后得到实体向量;其中,特征向量中实体词对应的特征值与实体掩码中的数值1相乘,非实体词对应的特征值与实体掩码中的数值0相乘。4.如权利要求3所述的基于非对称核函数的文本信息实体关系抽取方法,其特征在于,实体向量为:为:其中,为矩阵乘法运算;为对特征向量进行缩放的参数;为词向量最大维度;是超参数;为特征向量,为实体掩码。5.如权利要求1所述的基于非对称核函数的文本信息实体关系抽取方法,其特征在于,将特征向量和关系掩码进行逐元素乘法运算后得到关系向量;其中,特征向量中处于实体词窗口内的周围词与关系掩码中的非0数值相乘,以增强或削弱周围词的特征值;处于实体词窗口外的边缘词与关系掩码中的常数值相乘,边缘词的特征值保持不变。6.如权利要求5所述的基于非对称核函数的文本信息实体关系抽取方法,其特征在于,关系向量为:其中,为向量逐元素乘...

【专利技术属性】
技术研发人员:李敏邵聪李刚周鸣乐韩德隆陈庆辉
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1