信息提取模型的训练及信息提取方法、装置、介质制造方法及图纸

技术编号：32565222 阅读：25 留言：0更新日期：2022-03-09 16:50

本申请的实施例提供了一种信息提取模型的训练方法、装置、介质，涉及计算机及人工智能技术领域。该方法包括：获取样本图像，所述样本图像中包括至少一个样本信息单元；为所述样本图像中所述至少一个样本信息单元确定各自对应的样本标签，每个所述样本标签用于表征所述样本信息单元的实际特征信息；基于所述样本图像和所述样本标签，通过动态损失函数对待训练模型进行训练，得到信息提取模型，所述动态损失函数用于调节所述待训练模型在训练过程中对不同特征分类的样本信息单元的注意力。本申请实施例的技术方案可以提高信息提取模型对信息提取的准确度。信息提取的准确度。信息提取的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
信息提取模型的训练及信息提取方法、装置、介质

[0001]本申请涉及计算机及人工智能
，具体而言，涉及一种信息提取模型的训练及信息提取方法、装置、介质。

技术介绍

[0002]在信息提取场景中，比如在针对图像中的信息提取场景(例如提取图像中的公式或者文本)，通常是基于训练后的模型进行图像中信息的提取，然而，在一些情况下，不同特征分类的信息单元的分布可能存在极度不均衡问题，这会导致模型在训练时不能很好的学习分布较少的特征分类的信息单元，导致模型无法准确识别信息单元。基于此，如何提高信息提取模型对信息提取的准确度是亟待解决的技术问题。

技术实现思路

[0003]本申请的实施例提供了一种信息提取模型的训练及信息提取方法、装置、计算机程序产品或计算机程序、计算机可读介质，进而至少在一定程度上可以提高信息提取模型对信息提取的准确度。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面，提供了一种信息提取模型的训练方法，包括：获取样本图像，所述样本图像中包括至少一个样本信息单元；为所述样本图像中所述至少一个样本信息单元确定各自对应的样本标签，每个所述样本标签用于表征所述样本信息单元的实际特征信息；基于所述样本图像和所述样本标签，通过动态损失函数对待训练模型进行训练，得到信息提取模型，所述动态损失函数用于调节所述待训练模型在训练过程中对不同特征分类的样本信息单元的注意力。
[0006]根据本申请实施例...

【技术保护点】

【技术特征摘要】
1.一种信息提取模型的训练方法，其特征在于，所述方法包括：获取样本图像，所述样本图像中包括至少一个样本信息单元；为所述样本图像中所述至少一个样本信息单元确定各自对应的样本标签，每个所述样本标签用于表征所述样本信息单元的实际特征信息；基于所述样本图像和所述样本标签，通过动态损失函数对待训练模型进行训练，得到信息提取模型，所述动态损失函数用于调节所述待训练模型在训练过程中对不同特征分类的样本信息单元的注意力。2.根据权利要求1所述的方法，其特征在于，所述获取样本图像，包括：获取至少一帧原始样本图像；将各帧原始样本图像的高度调节至预设图像高度，或者将各帧原始样本图像的宽度调节至预设图像宽度；按照所述高度的调节比例或者所述宽度的调节比例，对所述原始样本图像的宽度或者所述原始样本图像的高度进行调节处理，得到预处理样本图像；从所述预处理样本图像中选定预定数量的图像作为所述样本图像。3.根据权利要求2所述的方法，其特征在于，所述从所述预处理样本图像中选定预定数量的图像作为所述样本图像，包括：按照所述预处理样本图像的高度或者宽度，对所述预处理样本图像进行排序；从所述预处理样本图像中选定排序相连的预定数量的图像作为所述样本图像。4.根据权利要求1所述的方法，其特征在于，所述基于所述样本图像和所述样本标签，通过动态损失函数对待训练模型进行训练，得到信息提取模型，包括：将所述样本图像输入至所述待训练模型，并获取由所述待训练模型输出的针对所述样本图像中各个样本信息单元的样本特征信息；获取动态损失函数，并基于所述样本标签和所述样本特征信息，通过所述动态损失函数计算针对所述待训练模型的动态损失值；通过所述动态损失值对所述待训练模型中的模型参数进行反向更新，得到所述信息提取模型。5.根据权利要求4所述的方法，其特征在于，所述获取动态损失函数，包括：通过所述样本标签，确定所述样本信息单元所属的实际特征分类；通过所述样本特征信息，确定所述信息单元属于所述实际特征分类的预测概率；获取初始损失函数，并基于所述预测概率和所述初始损失函数，确定所述动态损失函数。6.根据权利要求5所述的方法，其特征在于，所述基于所述预测概率和所述初始损失函数，确定所述动态损失函数，包括：通过所述预测概率，确定动态调制系数，所述动态调制系数与所述预测概率负相关，所述动态调制系数用于调节所述待训练模型在训练过程中对所述实际特征分类的样本信息单元的注意力；基于所述动态调制系数和所述初始损失函数，确定所述动态损失函数。7.根据权利要求6所述的方法，其特征在于，所述基于所述样本标签和所述样本特征信息，通过所述动态损失函数计算针对所述待训练模型的动态损失值，包括：
基于所述样本标签和所述样本特征信息，通过所述动态损失函数中的初始损失函数计算针对所述待训练模型的初始损失值；通过所述动态损失函数中的动态调制系数调节所述初始损失值，得到所述动态损失值。8.根据权利要求7所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：边晓航，辛晓哲，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人