一种基于对比学习的关系抽取方法技术

技术编号:36031176 阅读:59 留言:0更新日期:2022-12-21 10:32
本发明专利技术涉及自然语言处理中关系抽取技术领域,具体涉及一种基于对比学习的关系抽取方法;包括构建基于对比学习的关系抽取模型;获取无标签文本数据集和带标签关系抽取数据,通过SciPy Parser工具处理分别得到无标签文本语义依存图集和标签关系抽取文本语义依存图集;采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练;采用带标签关系抽取数据集和标签关系抽取文本语义依存图集,对预训练好的关系抽取模型进行微调训练;将待抽取数据输入微调训练完成的关系抽取模型,得到关系抽取结果;本发明专利技术将关系抽取标签数据有监督学习和无标签文本自监督学习潜在语义特征结合起来,提取适用于关系抽取的丰富的特征。富的特征。富的特征。

【技术实现步骤摘要】
一种基于对比学习的关系抽取方法


[0001]本专利技术涉及自然语言处理中关系抽取
,具体涉及一种基于对比学习的关系抽取方法。

技术介绍

[0002]随着人工智能和大数据时代的到来,互联网上信息增长速度越来越快,如何高效快速地从非结构化文本中提取有效的信息是学者们研究的重点。文本信息抽取包含实体抽取,关系抽取,事件抽取,因果抽取等。关系抽取是指从非结构化的文本中抽取出实体对之间的三元组信息,即<实体l,实体2,关系>。关系抽取作为自然语言处理中一项常见且重要的子任务,目前已被成功用于生物医学知识发现、知识图谱领域和问答领域等诸多自然语言处理领域。
[0003]现有关系提取模型或方法可大体分为两类:序列模型和依赖关系模型。序列模型主要针对单词序列进行建模,而依赖关系模型则是以句法依存关系树为基础,构建依赖关系模型。相对于序列模型而言,依赖关系模型可以利用句法依存树提取出句子中隐藏的非局部语法关系,进而建立句内长距离的依赖关系,更好建模出句子的结构信息。
[0004]传统有监督学习训练模型的方法对标签过度依赖,尤其在训练数据稀缺的情况下泛化能力较差。自监督学习利用数据本身提供的信息设置代理任务从而提供替代监督信号,使模型能够从未标记数据中学习到潜在的特征表示,从而在下游任务上获得更好的性能和鲁棒性,在图像领域的图片分类任务上已经超越有监督训练模型。

技术实现思路

[0005]基于以上方法的思想和存在的问题,结合所存在方法的优缺点,本专利技术提出一种基于图对比学习与双向长短时记忆神经网络结合的关系抽取方法,基于文本的句法依赖结构构建图模型,通过预训练加微调的学习范式,首先利用图对比学习在大量无标签文本数据训练自监督模型,获得句子潜在的特征表示,然后进一步在含有关系类别标签数据中微调模型,提取句子中结构信息和时序上下文信息,从而更全面地建模文本的特征表示,最终实现关系抽取。
[0006]一种基于对比学习的关系抽取方法,包括以下步骤:
[0007]S1.构建基于对比学习的关系抽取模型,其包括嵌入层、Bi

LSTM层、GCN层、线性连接层和输出层;
[0008]S2.获取无标签文本数据集,采用Glove词典进行词嵌入后通过SciPy Parser工具进行句子依存结构分析,转化得到无标签文本语义依存图集;
[0009]S3.获取带标签关系抽取数据,采用Glove词典进行词嵌入后通过SciPy Parser工具处理得到标签关系抽取文本语义依存图集;
[0010]S4.采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练;
[0011]S5.采用带标签关系抽取数据集和标签关系抽取文本语义依存图集,对S4预训练好的关系抽取模型进行微调训练;
[0012]S6.将待抽取文本数据输入微调训练完成的关系抽取模型,得到关系抽取结果。
[0013]进一步的,预训练的具体过程为:
[0014]S11.选取无标签文本语义依存图集中的任一无标签文本语义依存图作为第一依存图,其余无标签文本语义依存图作为第二依存图;第一依存图和第二依存图组成负样本对;
[0015]S12.对第一依存图进行混合随机删除边和随机遮掩特征处理,得到第一数据增强图和第二数据增强图,第一数据增强图和第二数据增强图组成正样本对;
[0016]S13.获取第一依存图对应的无标签文本的第一词向量表示,将第一词向量表示输入Bi

LSTM层得到第一上下文特征;
[0017]S14.将第一上下文特征、正样本对和负样本对输入GCN层训练GCN编码器,通过最大化正样本对之间的互信息训练GCN编码器参数,采用对比损失函数计算损失值进行反向传播,直至GCN编码器收敛。
[0018]进一步的,对比损失函数表示为:
[0019][0020][0021]其中,N表示无标签文本语义依存图总数,对无标签文本语义依存图集进行数据增强,得到N对正样本对,此时共有2N个样本;sim()表示余弦相似度计算函数,z
i
表示第i个无标签文本语义依存图数据增强后的正样本经过GCN编码器后的输出,z
j
表示与z
i
处于同一正样本对中的另一个正样本经过GCN编码器后的输出,z
k
表示剩余2N

2个样本经过GCN编码器后的输出,τ表示超参数。
[0022]进一步的,微调训练的具体过程包括:
[0023]S21.获取带标签关系抽取数据集中的关系抽取文本的词向量表示,并将其输入Bi

LSTM层获取关系抽取上下文特征;
[0024]S22.将关系抽取上下文特征和关系抽取文本对应的标签关系抽取文本语义依存图输入GCN层,得到长期依赖特征;
[0025]S23.通过线性连接层剔除长期依赖特征中的无关特征,得到最终输出,采用交叉熵损失函数计算损失值进行反向传播,直至模型收敛。
[0026]进一步的,GCN层中GCN编码器的隐藏层的计算公式表示为:
[0027][0028]其中,表示GCN编码器第l层的隐藏表示,A
ij
表示标签关系抽取文本语义依存图中节点v
i
与节点v
j
间的边,W
(l)
表示GCN编码器第l层的权重矩阵,表示GCN编码器第l
层的输入,b
(l)
表示GCN编码器第l层的偏置向量,ρ表示激活函数。
[0029]进一步的,将GCN编码器的输出进行池化,采用全连接层处理池化结果,表示为:
[0030]h
s
=f(GCN(h
(0)s1:s2
))
[0031]h
o
=f(GCN(h
(0)o1:o2
))
[0032]h
sent
=f(GCN(h
(0)
))
[0033]h
final
=W([h
s
;h
sent
;h
o
])+b
[0034]其中,h
s
表示经图卷积编码池化后的头实体词向量,h
(0)s1:s2
表示头实体词拼接的向量编码,GCN()表示图卷积编码器,f:R
d
×
n

R
d
表示最大池化函数,将n个d维词向量映射到d维句向量;h
o
表示经图卷积编码池化后的尾实体词向量,h
(0)o1:o2
表示尾实体拼接的向量编码,h
final
表示最终向量,W()表示全连接层的参数,b表示全连接层的偏置,h
(0)
表示句子的向量编码,h
sent
表示句子向量。
[0035]进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的关系抽取方法,其特征在于,包括以下步骤:S1.构建基于对比学习的关系抽取模型,其包括嵌入层、Bi

LSTM层、GCN层、线性连接层和输出层;S2.获取无标签文本数据集,采用Glove词典进行词嵌入后通过SciPy Parser工具进行句子依存结构分析,转化得到无标签文本语义依存图集;S3.获取带标签关系抽取数据,采用Glove词典进行词嵌入后通过SciPy Parser工具处理得到标签关系抽取文本语义依存图集;S4.采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练;S5.采用带标签关系抽取数据集和标签关系抽取文本语义依存图集,对S4预训练好的关系抽取模型进行微调训练;S6.将待抽取文本数据输入微调训练完成的关系抽取模型,得到关系抽取结果。2.根据权利要求1所述的一种基于对比学习的关系抽取方法,其特征在于,预训练的具体过程为:S11.选取无标签文本语义依存图集中的任一无标签文本语义依存图作为第一依存图,则其余无标签文本语义依存图作为第二依存图;第一依存图和第二依存图组成负样本对;S12.对第一依存图进行混合随机删除边和随机遮掩特征处理,得到第一数据增强图和第二数据增强图,第一数据增强图和第二数据增强图组成正样本对;S13.获取第一依存图对应的无标签文本的第一词向量表示,将第一词向量表示输入Bi

LSTM层得到第一上下文特征;S14.将第一上下文特征、正样本对和负样本对输入GCN层训练GCN编码器,通过最大化正样本对之间的互信息训练GCN编码器参数,采用对比损失函数计算损失值进行反向传播,直至GCN编码器收敛。3.根据权利要求2所述的一种基于对比学习的关系抽取方法,其特征在于,对比损失函数表示为:为:其中,N表示无标签文本语义依存图总数,对无标签文本语义依存图集进行数据增强,得到N对正样本对,此时共有2N个样本;sim()表示余弦相似度计算函数,z
i
表示第i个无标签文本语义依存图数据增强后的正样本经过GCN编码器后的输出,z
j
表示与z
i
处于同一正样本对中的另一个正样本经过GCN编码器后的输出,z
k
表示剩余2N

2个样本经过GCN编码器后的输出,τ表示超参数。4.根据权利要求1所述的一种基于对比学习的关系抽取方法,其特征在于,微调训练的具体过程包括:S21.获取带标签关系抽取数据集中的关系抽取文本的词向量表示,并将其输入Bi

LSTM层获取关系抽取上下文特征;
S22.将关系抽取上下文特征和关系抽取文本对应的标签关系抽取文本语义依存图输入GC...

【专利技术属性】
技术研发人员:田侃赵卓张晨吴涛徐敖远崔灿一星李之赞梁威威
申请(专利权)人:重庆中国三峡博物馆
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1