一种模型训练方法、装置、设备及可读存储介质制造方法及图纸

技术编号：38539460 阅读：12 留言：0更新日期：2023-08-19 17:08

本申请公开了一种模型训练方法、装置、设备及可读存储介质，该方法包括：获取信息抽取训练文本，并对信息抽取训练文本中的每个字符对应标签进行标注，得到标注数据；对标注数据进行实体替换和/或实体标注前缀替换，得到训练数据；利用预训练语言模型对目标模型网络进行参数初始化，得到初始模型；利用训练数据训练初始模型，得到信息抽取模型。本申请能够基于预训练语言模型的基础上，通过自动扩展标注数据，得到更多的训练数据，从而训练出更优的信息抽取模型。信息抽取模型。信息抽取模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、装置、设备及可读存储介质

[0001]本申请涉及信息处理
，特别是涉及一种模型训练方法、装置、设备及可读存储介质。

技术介绍

[0002]信息抽取模型可应用于数据安全、隐私保护等业务场景。其技术发展，从基于规则和词典的方法、基于统计机器学习方法，到基于浅层神经网络方法和基于大规模预训练模型方法。而面对各式各样的文档对象，当前工业界中面向文档的信息抽取的主流模型多为以规则和深度学习模型结合的方式。其中，基于深度学习模型的信息抽取模型考虑到要处理复杂格式文档的布局信息，模型训练方法需要设计复杂的模型结构，才能将文档中的布局信息融入模型。此外，这些模型训练方法需要通过高成本的人工标注，即必须同时标注文档的布局标签和文本的信息实体类别标签。
[0003]基于规则的信息抽取模型远不能满足对实际业务中格式多样的文档信息提取，而基于深度学习神经网络的信息识别模型，因为需要考虑复杂文档的布局信息，需要设计更为复杂的模型结构，将布局信息和文本信息进行编码后输入模型。这些技术虽然能够应对样式更多元化的文档，但仍然存在较大缺陷和问题。即，一方面是需要更多成本和时间对模型最优结构进行探索，同时，由于新设计的模型与业界常用的大规模预训练语言模型在结构上有差异，所以无法充分利用现有大规模预训练语言模型的能力。另一方面是需要更多的人力标注数据，成本高，并且在信息类别种类多和文档布局复杂时，标注质量很难得到保障。一般情况下，如果训练数据量较少，训练的模型效果就难以保证，所以需要另外的技术手段扩展数据量。
[0

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取信息抽取训练文本，并对所述信息抽取训练文本中的每个字符对应标签进行标注，得到标注数据；对所述标注数据进行实体替换和/或实体标注前缀替换，得到训练数据；利用预训练语言模型对目标模型网络进行参数初始化，得到初始模型；利用所述训练数据训练所述初始模型，得到信息抽取模型。2.根据权利要求1所述的模型训练方法，其特征在于，对所述标注数据进行实体替换，得到训练数据，包括：将所述标注数据中的目标实体替换为另一个同类实体，得到所述训练数据；所述实体为待提取的信息。3.根据权利要求1所述的模型训练方法，其特征在于，对所述标注数据进行实体标注前缀替换，得到训练数据，包括：将所述标准数据中目标实体的实体标注前缀替换为另一实体标注前缀，并修改所述目标实体的标注类型，得到所述训练数据。4.根据权利要求1所述的模型训练方法，其特征在于，利用所述训练数据训练所述初始模型，得到信息抽取模型，包括：对不同的所述训练数据，调整模型训练的超参；利用所述训练数据训练所述初始模型；选取表现最优的模型确定为所述信息抽取模型。5.根据权利要求1所述的模型训练方法，其特征在于，还包括：用所述信息抽取模型在业务范畴的测试问答集上进行实验，得到所述信息抽取模型的性能瓶颈；利用所述信息抽取模型对所述性能瓶颈所对应的未标注数据进行预测；将所述未标注数据作为弱监督数据，并利用所述弱监督数据对所述训练数据进行...

【专利技术属性】
技术研发人员：易宗权，邱星煜，吴杰，齐伟钢，
申请(专利权)人：中电科网络安全科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人