模型训练方法、信息抽取方法及装置、电子设备、介质制造方法及图纸

技术编号：32974926 阅读：18 留言：0更新日期：2022-04-09 11:50

本公开实施例是关于一种模型训练方法、信息抽取方法及装置、电子设备、存储介质，涉及计算机技术领域，该模型训练方法包括：获取训练语料，并确定所述训练语料对应的三元组，以将所述三元组确定为训练数据；根据所述训练数据训练多个神经网络模型，并通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组；对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据；根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型。本公开的技术方案能够提高标注的精准度以及模型的准确性。方案能够提高标注的精准度以及模型的准确性。方案能够提高标注的精准度以及模型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、信息抽取方法及装置、电子设备、介质

[0001]本公开涉及计算机
，具体而言，涉及一种模型训练方法、模型训练装置、信息抽取方法、信息抽取装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]信息抽取是知识图谱构建中一项重要的技术，通过信息抽取，可以补全图谱中缺失的属性。
[0003]常见的信息抽取方案有两种，一种是基于抽取关系类型的信息抽取，通过预定义的抽取关系类型从图谱中抽取出三元组入库，通过训练模型从训练数据中抽取出三元组。另外一种是开放域信息抽取技术。其中为了解决标注效率低的问题，通常会采用远程监督的方案进行预标注。
[0004]上述方式中，基于抽取关系类型的信息抽取方式中由于远程监督而导致出现训练数据漏标和错标的问题，标注的结果不准确；训练数据的标注数量有限，存在一定的局限性；并且根据训练数据训练的信息抽取模型的准确性较低。
[0005]需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种模型训练方法、信息抽取方法及装置、电子设备、存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的训练数据不准确以及模型准确性较低的问题。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
[0008]根据本公开的一个方面，提供一种模型训练方法，包括：...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取训练语料，并确定所述训练语料对应的三元组，以将所述三元组确定为训练数据；根据所述训练数据训练多个神经网络模型，并通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组；对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据；根据更新后的训练数据对神经网络模型的模型参数进行调整，获取信息抽取模型。2.根据权利要求1所述的模型训练方法，其特征在于，所述确定所述训练语料对应的三元组，包括：根据目标关系类型将所述训练数据中的三元组确定为初始三元组，并根据所述训练数据的语义信息在所述初始三元组中确定待抽取三元组，以确定所述三元组。3.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述训练数据训练多个神经网络模型，包括：根据所述训练数据得到多个训练数据子集；将所述多个训练数据子集中的一个训练数据子集作为验证集，将剩余训练数据子集作为训练集，对多个神经网络模型进行训练。4.根据权利要求3所述的模型训练方法，其特征在于，所述将所述多个训练数据子集中的一个训练数据子集作为验证集，将剩余训练数据子集作为训练集，对多个神经网络模型进行训练，包括：将所述多个训练数据子集中的第i个训练数据子集作为验证集，将剩余训练数据子集作为训练集；以第i个神经网络模型的验证集分数值最高为模型训练目标，对多个神经网络模型中的第i个神经网络模型进行训练，并确定训练好的第i个神经网络模型。5.根据权利要求3所述的模型训练方法，其特征在于，所述通过所述多个神经网络模型对所述训练数据进行类型预测得到预测三元组，包括：通过所述多个神经网络模型对所述训练数据进行预测，得到多个目标三元组的多个得分；对所述目标三元组的多个得分进行平均处理获取每个目标三元组的目标得分，并根据所述目标得分确定所述预测三元组。6.根据权利要求5所述的模型训练方法，其特征在于，所述根据所述目标得分确定所述预测三元组，包括：若所述目标得分大于第一阈值，将所述三元组确定为候选三元组；若所述目标得分小于第二阈值，或所述目标得分大于第一阈值且所述三元组未存在于所述训练数据对应的语义信息中，将所述三元组确定为待剔除三元组；其中，所述第一阈值大于所述第二阈值。7.根据权利要求6所述的模型训练方法，其特征在于，所述对所述预测三元组的权重进行调整，并根据调整权重后的预测三元组更新训练数据，包括：降低处于所述训练数据中的待剔除三元组的权重，增加所述训练数据之外的候选三元...

【专利技术属性】
技术研发人员：樊乘源，刘海锋，
申请(专利权)人：深圳市欢太科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人