一种模型训练方法、装置、设备及可读存储介质制造方法及图纸

技术编号:38539460 阅读:12 留言:0更新日期:2023-08-19 17:08
本申请公开了一种模型训练方法、装置、设备及可读存储介质,该方法包括:获取信息抽取训练文本,并对信息抽取训练文本中的每个字符对应标签进行标注,得到标注数据;对标注数据进行实体替换和/或实体标注前缀替换,得到训练数据;利用预训练语言模型对目标模型网络进行参数初始化,得到初始模型;利用训练数据训练初始模型,得到信息抽取模型。本申请能够基于预训练语言模型的基础上,通过自动扩展标注数据,得到更多的训练数据,从而训练出更优的信息抽取模型。信息抽取模型。信息抽取模型。

【技术实现步骤摘要】
一种模型训练方法、装置、设备及可读存储介质


[0001]本申请涉及信息处理
,特别是涉及一种模型训练方法、装置、设备及可读存储介质。

技术介绍

[0002]信息抽取模型可应用于数据安全、隐私保护等业务场景。其技术发展,从基于规则和词典的方法、基于统计机器学习方法,到基于浅层神经网络方法和基于大规模预训练模型方法。而面对各式各样的文档对象,当前工业界中面向文档的信息抽取的主流模型多为以规则和深度学习模型结合的方式。其中,基于深度学习模型的信息抽取模型考虑到要处理复杂格式文档的布局信息,模型训练方法需要设计复杂的模型结构,才能将文档中的布局信息融入模型。此外,这些模型训练方法需要通过高成本的人工标注,即必须同时标注文档的布局标签和文本的信息实体类别标签。
[0003]基于规则的信息抽取模型远不能满足对实际业务中格式多样的文档信息提取,而基于深度学习神经网络的信息识别模型,因为需要考虑复杂文档的布局信息,需要设计更为复杂的模型结构,将布局信息和文本信息进行编码后输入模型。这些技术虽然能够应对样式更多元化的文档,但仍然存在较大缺陷和问题。即,一方面是需要更多成本和时间对模型最优结构进行探索,同时,由于新设计的模型与业界常用的大规模预训练语言模型在结构上有差异,所以无法充分利用现有大规模预训练语言模型的能力。另一方面是需要更多的人力标注数据,成本高,并且在信息类别种类多和文档布局复杂时,标注质量很难得到保障。一般情况下,如果训练数据量较少,训练的模型效果就难以保证,所以需要另外的技术手段扩展数据量。
[0004]综上所述,如何有效地解决信息抽取模型等问题,是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0005]本申请的目的是提供一种模型训练方法、装置、设备及可读存储介质,能够基于预训练语言模型的基础上,通过自动扩展标注数据,得到更多的训练数据,从而训练出更优的信息抽取模型。
[0006]为解决上述技术问题,本申请提供如下技术方案:
[0007]一种模型训练方法,包括:
[0008]获取信息抽取训练文本,并对所述信息抽取训练文本中的每个字符对应标签进行标注,得到标注数据;
[0009]对所述标注数据进行实体替换和/或实体标注前缀替换,得到训练数据;
[0010]利用预训练语言模型对目标模型网络进行参数初始化,得到初始模型;
[0011]利用所述训练数据训练所述初始模型,得到信息抽取模型。
[0012]优选地,对所述标注数据进行实体替换,得到训练数据,包括:
[0013]将所述标注数据中的目标实体替换为另一个同类实体,得到所述训练数据;所述实体为待提取的信息。
[0014]优选地,对所述标注数据进行实体标注前缀替换,得到训练数据,包括:
[0015]将所述标准数据中目标实体的实体标注前缀替换为另一实体标注前缀,并修改所述目标实体的标注类型,得到所述训练数据。
[0016]优选地,利用所述训练数据训练所述初始模型,得到信息抽取模型,包括:
[0017]对不同的所述训练数据,调整模型训练的超参;
[0018]利用所述训练数据训练所述初始模型;
[0019]选取表现最优的模型确定为所述信息抽取模型。
[0020]优选地,还包括:
[0021]用所述信息抽取模型在业务范畴的测试问答集上进行实验,得到所述信息抽取模型的性能瓶颈;
[0022]利用所述信息抽取模型对所述性能瓶颈所对应的未标注数据进行预测;
[0023]将所述未标注数据作为弱监督数据,并利用所述弱监督数据对所述训练数据进行更新;
[0024]利用更新后的训练数据对所述信息抽取模型进行优化训练,使得所述信息抽取模型满足所述业务范畴的准确率标准。
[0025]优选地,所述获取信息抽取训练文本,包括:
[0026]获取目标文档,并切分所述目标文档,得到平文本和表格文本;
[0027]对所述表格文本进行表述转换,得到表格平文本;
[0028]对所述平文本和所述表格平文本进行文本提取,得到所述获取信息抽取训练文本。
[0029]优选地,还包括:
[0030]获取待抽取文档;
[0031]将所述待抽取文档输入至所述信息抽取模型进行信息抽取,得到目标信息。
[0032]一种模型训练装置,包括:
[0033]标签标注模块,用于获取信息抽取训练文本,并对所述信息抽取训练文本中的每个字符对应标签进行标注,得到标注数据;
[0034]数据扩展模块,用于对所述标注数据进行实体替换和/或实体标注前缀替换,得到训练数据;
[0035]初始化模块,用于利用预训练语言模型对目标模型网络进行参数初始化,得到初始模型;
[0036]模型训练模块,用于利用所述训练数据训练所述初始模型,得到信息抽取模型。
[0037]一种电子设备,包括:
[0038]存储器,用于存储计算机程序;
[0039]处理器,用于执行所述计算机程序时实现上述模型训练方法的步骤。
[0040]一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法的步骤。
[0041]应用本申请实施例所提供的方法,获取信息抽取训练文本,并对信息抽取训练文
本中的每个字符对应标签进行标注,得到标注数据;对标注数据进行实体替换和/或实体标注前缀替换,得到训练数据;利用预训练语言模型对目标模型网络进行参数初始化,得到初始模型;利用训练数据训练初始模型,得到信息抽取模型。
[0042]在本申请,在获取到信息授权训练文本之后,首先对文本中的每个字符对应的标签都进行标注,从而得到标注数据。然后,通过对标注数据进行实体替换和实体标注前缀替换中的至少一种方式,实现标注数据的扩展,得到训练数据。在构造模型时,基于预训练语言模型对目标模型网络进行参数初始化,得到具备与训练语言模型学习能力的初始模型。再借助训练数据对初始模型进行训练最终可得到信息抽取模型。即,本申请能够基于预训练语言模型的基础上,通过自动扩展标注数据,得到更多的训练数据,从而训练出更优的信息抽取模型。
[0043]相应地,本申请实施例还提供了与上述模型训练方法相对应的模型训练装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
[0044]为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]图1为本申请实施例中一种模型训练方法的实施流程图;
[0046]图2为本申请实施例中一种模型训练方法的具体实施流程图;
[0047]图3为本申请实施例中一种模型训练装置的结构示意图;
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取信息抽取训练文本,并对所述信息抽取训练文本中的每个字符对应标签进行标注,得到标注数据;对所述标注数据进行实体替换和/或实体标注前缀替换,得到训练数据;利用预训练语言模型对目标模型网络进行参数初始化,得到初始模型;利用所述训练数据训练所述初始模型,得到信息抽取模型。2.根据权利要求1所述的模型训练方法,其特征在于,对所述标注数据进行实体替换,得到训练数据,包括:将所述标注数据中的目标实体替换为另一个同类实体,得到所述训练数据;所述实体为待提取的信息。3.根据权利要求1所述的模型训练方法,其特征在于,对所述标注数据进行实体标注前缀替换,得到训练数据,包括:将所述标准数据中目标实体的实体标注前缀替换为另一实体标注前缀,并修改所述目标实体的标注类型,得到所述训练数据。4.根据权利要求1所述的模型训练方法,其特征在于,利用所述训练数据训练所述初始模型,得到信息抽取模型,包括:对不同的所述训练数据,调整模型训练的超参;利用所述训练数据训练所述初始模型;选取表现最优的模型确定为所述信息抽取模型。5.根据权利要求1所述的模型训练方法,其特征在于,还包括:用所述信息抽取模型在业务范畴的测试问答集上进行实验,得到所述信息抽取模型的性能瓶颈;利用所述信息抽取模型对所述性能瓶颈所对应的未标注数据进行预测;将所述未标注数据作为弱监督数据,并利用所述弱监督数据对所述训练数据进行...

【专利技术属性】
技术研发人员:易宗权邱星煜吴杰齐伟钢
申请(专利权)人:中电科网络安全科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1