一种基于对比学习的关系抽取方法技术

技术编号：36031176 阅读：59 留言：0更新日期：2022-12-21 10:32

本发明专利技术涉及自然语言处理中关系抽取技术领域，具体涉及一种基于对比学习的关系抽取方法；包括构建基于对比学习的关系抽取模型；获取无标签文本数据集和带标签关系抽取数据，通过SciPy Parser工具处理分别得到无标签文本语义依存图集和标签关系抽取文本语义依存图集；采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练；采用带标签关系抽取数据集和标签关系抽取文本语义依存图集，对预训练好的关系抽取模型进行微调训练；将待抽取数据输入微调训练完成的关系抽取模型，得到关系抽取结果；本发明专利技术将关系抽取标签数据有监督学习和无标签文本自监督学习潜在语义特征结合起来，提取适用于关系抽取的丰富的特征。富的特征。富的特征。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对比学习的关系抽取方法

[0001]本专利技术涉及自然语言处理中关系抽取
，具体涉及一种基于对比学习的关系抽取方法。

技术介绍

[0002]随着人工智能和大数据时代的到来,互联网上信息增长速度越来越快,如何高效快速地从非结构化文本中提取有效的信息是学者们研究的重点。文本信息抽取包含实体抽取,关系抽取,事件抽取,因果抽取等。关系抽取是指从非结构化的文本中抽取出实体对之间的三元组信息,即<实体l,实体2,关系>。关系抽取作为自然语言处理中一项常见且重要的子任务,目前已被成功用于生物医学知识发现、知识图谱领域和问答领域等诸多自然语言处理领域。
[0003]现有关系提取模型或方法可大体分为两类:序列模型和依赖关系模型。序列模型主要针对单词序列进行建模,而依赖关系模型则是以句法依存关系树为基础,构建依赖关系模型。相对于序列模型而言,依赖关系模型可以利用句法依存树提取出句子中隐藏的非局部语法关系,进而建立句内长距离的依赖关系,更好建模出句子的结构信息。
[0004]传统有监督学习训练模型的方法对标签过度依赖，尤其在训练数据稀缺的情况下泛化能力较差。自监督学习利用数据本身提供的信息设置代理任务从而提供替代监督信号，使模型能够从未标记数据中学习到潜在的特征表示，从而在下游任务上获得更好的性能和鲁棒性，在图像领域的图片分类任务上已经超越有监督训练模型。

技术实现思路

[0005]基于以上方法的思想和存在的问题，结合所存在方法的优缺点，本专利技术提出一种基于图对比...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的关系抽取方法，其特征在于，包括以下步骤：S1.构建基于对比学习的关系抽取模型，其包括嵌入层、Bi
‑
LSTM层、GCN层、线性连接层和输出层；S2.获取无标签文本数据集，采用Glove词典进行词嵌入后通过SciPy Parser工具进行句子依存结构分析，转化得到无标签文本语义依存图集；S3.获取带标签关系抽取数据，采用Glove词典进行词嵌入后通过SciPy Parser工具处理得到标签关系抽取文本语义依存图集；S4.采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练；S5.采用带标签关系抽取数据集和标签关系抽取文本语义依存图集，对S4预训练好的关系抽取模型进行微调训练；S6.将待抽取文本数据输入微调训练完成的关系抽取模型，得到关系抽取结果。2.根据权利要求1所述的一种基于对比学习的关系抽取方法，其特征在于，预训练的具体过程为：S11.选取无标签文本语义依存图集中的任一无标签文本语义依存图作为第一依存图，则其余无标签文本语义依存图作为第二依存图；第一依存图和第二依存图组成负样本对；S12.对第一依存图进行混合随机删除边和随机遮掩特征处理，得到第一数据增强图和第二数据增强图，第一数据增强图和第二数据增强图组成正样本对；S13.获取第一依存图对应的无标签文本的第一词向量表示，将第一词向量表示输入Bi
‑
LSTM层得到第一上下文特征；S14.将第一上下文特征、正样本对和负样本对输入GCN层训练GCN编码器，通过最大化正样本对之间的互信息训练GCN编码器参数，采用对比损失函数计算损失值进行反向传播，直至GCN编码器收敛。3.根据权利要求2所述的一种基于对比学习的关系抽取方法，其特征在于，对比损失函数表示为：为：其中，N表示无标签文本语义依存图总数，对无标签文本语义依存图集进行数据增强，得到N对正样本对，此时共有2N个样本；sim()表示余弦相似度计算函数，z
i
表示第i个无标签文本语义依存图数据增强后的正样本经过GCN编码器后的输出，z
j
表示与z
i
处于同一正样本对中的另一个正样本经过GCN编码器后的输出，z
k
表示剩余2N
‑
2个样本经过GCN编码器后的输出，τ表示超参数。4.根据权利要求1所述的一种基于对比学习的关系抽取方法，其特征在于，微调训练的具体过程包括：S21.获取带标签关系抽取数据集中的关系抽取文本的词向量表示，并将其输入Bi
‑
LSTM层获取关系抽取上下文特征；
S22.将关系抽取上下文特征和关系抽取文本对应的标签关系抽取文本语义依存图输入GC...

【专利技术属性】
技术研发人员：田侃，赵卓，张晨，吴涛，徐敖远，崔灿一星，李之赞，梁威威，
申请(专利权)人：重庆中国三峡博物馆，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人