关系抽取模型的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号：40810298 阅读：3 留言：0更新日期：2024-03-28 19:32

本发明专利技术提供一种关系抽取模型的训练方法、装置、电子设备和存储介质，从样本数据集中，确定噪音样本文本和纯净样本文本；基于初始关系抽取模型，分别确定噪音样本文本的噪音隐藏特征，以及纯净样本文本的纯净隐藏特征，并基于噪音隐藏特征，确定噪音样本文本的预测实体关系；基于噪音样本文本的预测实体关系，以及纯净样本文本的纯净隐藏特征和样本实体关系，对初始关系抽取模型进行参数迭代，得到关系抽取模型，克服了目前噪音样本的丢弃导致了有用信息的丢失，以致模型训练不足，效果欠佳的缺陷，通过伪标签充分利用噪音样本文本中的信息，以使模型更好的学习关系特征，从而优化训练效果，实现了模型性能的提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，尤其涉及一种关系抽取模型的训练方法、装置、电子设备和存储介质。

技术介绍

1、关系抽取，作为知识图谱构建过程的关键一环，其通过预测实体之间的关系来挖掘知识。然而，大多数监督式的关系抽取技术需要大量的标记数据，而手动获取大量标记数据较为困难。为了解决这一问题，远程监督方法被提出，其通过将纯文本与知识库对齐来自动生成标记的文本语料库。然而，由于注释过程的存在，远程监督通常在训练数据中面临高标签噪声的问题。

2、为减轻远程监督的噪声影响，目前，使用多实例学习框架或修改多实例学习的方式来训练关系抽取模型，以使其可以识别包级别的关系标签，但是，其仍不擅长将包中的每个句子精确映射到句子标签。针对此，目前已提出专注于句子级别改进的远程监督关系抽取模型，但是其存在一个十分严重的问题，即当面临噪音样本时，其选择丢弃所有的噪音样本，而直接滤除噪音样本会导致有用信息的丢失，以致模型的学习不足，训练效果欠佳。

技术实现思路

1、本专利技术提供一种关系抽取模型的训练方法、装置、电子设备和存储介质，用以解决现有技术中噪音样本的丢弃导致了有用信息的丢失，以致模型训练不足，效果欠佳的缺陷，通过生成伪标签，并使用伪标签来充分利用噪音样本文本中的信息，以使模型更好的学习关系特征，从而优化训练效果，提升模型的性能。

2、本专利技术提供一种关系抽取模型的训练方法，包括：

3、确定样本数据集，并从所述样本数据集中，确定噪音样本文本和纯净样本文本，所述样本数据集中包

4、基于初始关系抽取模型，分别确定所述噪音样本文本的噪音隐藏特征，以及所述纯净样本文本的纯净隐藏特征，并基于所述噪音隐藏特征，确定所述噪音样本文本的预测实体关系；

5、基于所述噪音样本文本的预测实体关系，以及所述纯净样本文本的纯净隐藏特征和样本实体关系，对所述初始关系抽取模型进行参数迭代，得到关系抽取模型。

6、根据本专利技术提供的一种关系抽取模型的训练方法，所述初始关系抽取模型包括特征提取模型、第一分类模型和第二分类模型，预测实体关系包括第一预测实体关系和第二预测实体关系；

7、所述基于初始关系抽取模型，分别确定所述噪音样本文本的噪音隐藏特征，以及所述纯净样本文本的纯净隐藏特征，并基于所述噪音隐藏特征，确定所述噪音样本文本的预测实体关系，包括：

8、基于所述初始关系抽取模型中的特征提取模型，分别确定所述噪音样本文本的噪音隐藏特征，以及所述纯净样本文本的纯净隐藏特征；

9、基于所述初始关系抽取模型中的第一分类模型，以及所述噪音隐藏特征，确定所述噪音样本文本的第一预测实体关系；

10、基于所述初始关系抽取模型中的第二分类模型，以及所述噪音隐藏特征，确定所述噪音样本文本的第二预测实体关系。

11、根据本专利技术提供的一种关系抽取模型的训练方法，所述基于所述初始关系抽取模型中的第一分类模型，以及所述噪音隐藏特征，确定所述噪音样本文本的第一预测实体关系；基于所述初始关系抽取模型中的第二分类模型，以及所述噪音隐藏特征，确定所述噪音样本文本的第二预测实体关系，包括：

12、基于所述第一分类模型，以及第一增强特征，确定所述噪音样本文本的第一预测实体关系；

13、基于所述第二分类模型，以及第二增强特征，确定所述噪音样本文本的第二预测实体关系；

14、所述第一增强特征和所述第二增强特征分别为所述特征提取模型在第一神经元丢失率和第二神经元丢失率下基于所述噪音样本文本确定的噪音隐藏特征；

15、所述第一神经元丢失率小于所述第二神经元丢失率。

16、根据本专利技术提供的一种关系抽取模型的训练方法，所述基于所述噪音样本文本的预测实体关系，以及所述纯净样本文本的纯净隐藏特征和样本实体关系，对所述初始关系抽取模型进行参数迭代，得到关系抽取模型，包括：

17、基于所述预测实体关系中的第一预测实体关系和第二预测实体关系，确定无标签样本损失；

18、对不同纯净样本文本的纯净隐藏特征进行特征混合，得到多个纯净混合特征；

19、基于各纯净混合特征及其对应的样本实体关系，确定对比损失；

20、基于所述无标签样本损失和所述对比损失，对所述初始关系抽取模型进行参数迭代，得到关系抽取模型。

21、根据本专利技术提供的一种关系抽取模型的训练方法，所述无标签样本损失基于如下公式确定：

22、

23、其中，为无标签样本损失，μb为噪音样本文本u的数目，表示第一预测实体关系，θs,t为使用第二神经元丢失率下第t次迭代的特征提取模型，ψt为第t次迭代的第二分类模型，表示第二预测实体关系，l为交叉熵损失函数，σt(c)表示关系类别c对应的第一预测实体关系中，预测置信度大于阈值τ的噪音样本文本的数目。

24、根据本专利技术提供的一种关系抽取模型的训练方法，所述对比损失基于如下公式确定：

25、

26、

27、zi＝λza+(1-λ)zb

28、

29、yi∈{ya,yb}

30、其中，为对比损失，n为纯净样本文本的数目，λ可以从beta分布中随机采样得到，λ∈[0,1]～beta(αm,αm)，αm为超参，zi为za和zb的混合特征，即纯净混合特征，za和zb分别为不同纯净样本文本的纯净隐藏特征，ya为纯净隐藏特征za对应的纯净样本文本的样本实体关系，yb为纯净隐藏特征zb对应的纯净样本文本的样本实体关系，ya和yb均为纯净混合特征zi对应的样本实体关系，表示一个batch中样本实体关系为yi的纯净样本文本的数目，zj为样本实体关系为yj的纯净样本文本的纯净隐藏特征，zr为样本实体关系为yr的纯净样本文本的纯净隐藏特征，yr＝yi或yr≠yi，τ为温度超参。

31、根据本专利技术提供的一种关系抽取模型的训练方法，所述从所述样本数据集中，确定噪音样本文本和纯净样本文本，包括：

32、基于所述初始关系抽取模型，确定所述样本数据集中各样本文本的隐藏特征；

33、基于所述各样本文本的隐藏特征，确定所述各样本文本所对应的k最近邻图；

34、基于所述k最近邻图，从所述各样本文本中确定噪音样本文本和纯净样本文本，并丢弃所述噪音样本文本的样本实体关系。

35、本专利技术还提供一种关系抽取模型的训练装置，包括：

36、确定单元，用于确定样本数据集，并从所述样本数据集中，确定噪音样本文本和纯净样本文本，所述样本数据集中包含多个样本文本，以及各样本文本对应的样本实体关系；

37、预测单元，用于基于初始关系抽取模型，分别确定所述噪音样本文本的噪音隐藏特征，以及所述纯净样本文本的纯净隐藏特征，并基于所述噪音隐藏特征，确定所述噪音样本文本的预测实体关系；

38、训练单元，用于基于所述噪音样本文本的本文档来自技高网...

【技术保护点】

1.一种关系抽取模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的关系抽取模型的训练方法，其特征在于，所述初始关系抽取模型包括特征提取模型、第一分类模型和第二分类模型，预测实体关系包括第一预测实体关系和第二预测实体关系；

3.根据权利要求2所述的关系抽取模型的训练方法，其特征在于，所述基于所述初始关系抽取模型中的第一分类模型，以及所述噪音隐藏特征，确定所述噪音样本文本的第一预测实体关系；基于所述初始关系抽取模型中的第二分类模型，以及所述噪音隐藏特征，确定所述噪音样本文本的第二预测实体关系，包括：

4.根据权利要求1至3中任一项所述的关系抽取模型的训练方法，其特征在于，所述基于所述噪音样本文本的预测实体关系，以及所述纯净样本文本的纯净隐藏特征和样本实体关系，对所述初始关系抽取模型进行参数迭代，得到关系抽取模型，包括：

5.根据权利要求4所述的关系抽取模型的训练方法，其特征在于，所述无标签样本损失基于如下公式确定：

6.根据权利要求4所述的关系抽取模型的训练方法，其特征在于，所述对比损失基于如下公式确定：

<...

【技术特征摘要】

1.一种关系抽取模型的训练方法，其特征在于，包括：

【专利技术属性】
技术研发人员：刘强，王亮，吴书，白平，孙鑫，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人