针对文字失真的对齐模型的训练方法及训练装置制造方法及图纸

技术编号：34960116 阅读：30 留言：0更新日期：2022-09-17 12:39

本公开描述一种针对文字失真的对齐模型的训练方法及训练装置，该训练方法包括获取多个原始文档并对对应的原始图像进行几何变换和基于文字骨架的位置对齐以获取标签图像；分别将原始图像、失真图像和标签图像中的文字区域对应的图像块作为第一图像集、第二图像集和第三图像集；获取对齐模型对第一图像集和第二图像集进行预测获得的预测集，并基于预测集确定预测对齐图像块；基于预测对齐图像块和第三图像集中图像块确定第一损失函数，基于预测对齐图像块的文字骨架和第二图像集中图像块的文字骨架确定第二损失函数；并且基于第一损失函数和第二损失函数训练对齐模型，以获得训练后的对齐模型。由此，能够提高对齐精度和准确度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
针对文字失真的对齐模型的训练方法及训练装置

[0001]本公开大体涉及文档处理领域，具体涉及一种针对文字失真的对齐模型的训练方法及训练装置。

技术介绍

[0002]近年来深度学习方法在文档图像分析与处理领域具有广泛的应用。在对基于深度学习的文档图像分析模型进行训练时，常常需要采集相应的标注数据作为金标准供文档图像分析模型进行学习。
[0003]目前，在对文档图像分析模型进行训练时面临着巨大的困难，其中，较明显的是训练数据的标注难度大并且成本高。具体地，在对训练数据的进行标注时，常常需要对训练数据中的相关联的图像进行对齐(例如，需要对原始文档对应的原始图像与失真图像进行位置对齐)，进而导致数据标注的成本和难度极大地增加。为了解决训练数据标注成本高的问题，现有的主流方法：通过基于图像失真模型理论，从原始图像出发去生成对应的失真图像，进而来寻找能够与失真图像对齐的原始图像；对失真图像的几何失真进行估计以及利用失真图像的特征点来进行原始图像与失真图像之间的对齐从而实现对真实环境采集到的训练数据的标注。
[0004]然而，在上述主流方法的方案中，却未考虑失真图像中文字级别的失真(例如文字的边缘模糊和/或扩散的失真)。因此，对齐精度和准确度还有待于提高。

技术实现思路

[0005]本公开是有鉴于上述的状况而提出的，其目的在于提供一种能够提高对齐精度和准确度的针对文字失真的对齐模型的训练方法及训练装置。
[0006]为此，本公开第一方面提供一种针对文字失真的对齐模型的训练方法，所述对齐模型是

【技术保护点】

【技术特征摘要】
1.一种针对文字失真的对齐模型的训练方法，其特征在于，所述对齐模型是用于将原始文档对应的无失真的原始图像与有失真的失真图像进行位置对齐的深度神经网络，所述训练方法包括：获取多个原始文档，并对所述多个原始文档中的各个原始文档的原始图像进行几何变换和基于文字骨架的位置对齐以获取标签图像，所述标签图像为对齐后的原始图像；分别将所述多个原始文档对应的原始图像、失真图像和标签图像中的文字区域对应的图像块作为第一图像集、第二图像集和第三图像集；获取所述对齐模型针对所述第一图像集和所述第二图像集进行预测而获得的预测集，所述预测集包括与所述第一图像集中的图像块对应的预测结果，并基于所述预测集中的预测结果确定所述第一图像集中的图像块对应的预测对齐图像块；基于所述第一图像集中的图像块对应的预测对齐图像块和所述第三图像集中对应的图像块确定第一损失函数，基于所述第一图像集中的图像块对应的预测对齐图像块的文字骨架和所述第二图像集中对应的图像块的文字骨架确定第二损失函数；并且基于所述第一损失函数和所述第二损失函数训练所述对齐模型，以获得训练后的所述对齐模型。2.根据权利要求1所述的训练方法，其特征在于：在所述几何变换中，基于各个原始文档的原始图像和失真图像中的文字区域对应的图像块获取几何变化参数，利用所述几何变换参数对各个原始文档的原始图像进行变换以使变换后的原始图像与失真图像之间的文字形状对齐。3.根据权利要求1所述的训练方法，其特征在于：在所述位置对齐中，针对各个原始文档，将所述几何变换后的原始图像的文字骨架作为第一骨架，将失真图像的文字骨架作为第二骨架，基于所述第一骨架和所述第二骨架之间的重叠程度确定所述几何变换后的原始图像中的预设位置在失真图像中的对齐位置，基于所述对齐位置将所述几何变换后的原始图像与失真图像的位置进行对齐。4.根据权利要求1所述的训练方法，其特征在于：将所述第三图像集中的各个图像块作为标签图像块，基于所...

【专利技术属性】
技术研发人员：陈昌盛，陈自炜，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人