当前位置: 首页 > 专利查询>深圳大学专利>正文

针对文字失真的对齐模型的训练方法及训练装置制造方法及图纸

技术编号:34960116 阅读:30 留言:0更新日期:2022-09-17 12:39
本公开描述一种针对文字失真的对齐模型的训练方法及训练装置,该训练方法包括获取多个原始文档并对对应的原始图像进行几何变换和基于文字骨架的位置对齐以获取标签图像;分别将原始图像、失真图像和标签图像中的文字区域对应的图像块作为第一图像集、第二图像集和第三图像集;获取对齐模型对第一图像集和第二图像集进行预测获得的预测集,并基于预测集确定预测对齐图像块;基于预测对齐图像块和第三图像集中图像块确定第一损失函数,基于预测对齐图像块的文字骨架和第二图像集中图像块的文字骨架确定第二损失函数;并且基于第一损失函数和第二损失函数训练对齐模型,以获得训练后的对齐模型。由此,能够提高对齐精度和准确度。度。度。

【技术实现步骤摘要】
针对文字失真的对齐模型的训练方法及训练装置


[0001]本公开大体涉及文档处理领域,具体涉及一种针对文字失真的对齐模型的训练方法及训练装置。

技术介绍

[0002]近年来深度学习方法在文档图像分析与处理领域具有广泛的应用。在对基于深度学习的文档图像分析模型进行训练时,常常需要采集相应的标注数据作为金标准供文档图像分析模型进行学习。
[0003]目前,在对文档图像分析模型进行训练时面临着巨大的困难,其中,较明显的是训练数据的标注难度大并且成本高。具体地,在对训练数据的进行标注时,常常需要对训练数据中的相关联的图像进行对齐(例如,需要对原始文档对应的原始图像与失真图像进行位置对齐),进而导致数据标注的成本和难度极大地增加。为了解决训练数据标注成本高的问题,现有的主流方法:通过基于图像失真模型理论,从原始图像出发去生成对应的失真图像,进而来寻找能够与失真图像对齐的原始图像;对失真图像的几何失真进行估计以及利用失真图像的特征点来进行原始图像与失真图像之间的对齐从而实现对真实环境采集到的训练数据的标注。
[0004]然而,在上述主流方法的方案中,却未考虑失真图像中文字级别的失真(例如文字的边缘模糊和/或扩散的失真)。因此,对齐精度和准确度还有待于提高。

技术实现思路

[0005]本公开是有鉴于上述的状况而提出的,其目的在于提供一种能够提高对齐精度和准确度的针对文字失真的对齐模型的训练方法及训练装置。
[0006]为此,本公开第一方面提供一种针对文字失真的对齐模型的训练方法,所述对齐模型是用于将原始文档对应的无失真的原始图像与有失真的失真图像进行位置对齐的深度神经网络,所述训练方法包括:获取多个原始文档,并对所述多个原始文档中的各个原始文档的原始图像进行几何变换和基于文字骨架的位置对齐以获取标签图像,所述标签图像为对齐后的原始图像;分别将所述多个原始文档对应的原始图像、失真图像和标签图像中的文字区域对应的图像块作为第一图像集、第二图像集和第三图像集;获取所述对齐模型针对所述第一图像集和所述第二图像集进行预测而获得的预测集,所述预测集包括与所述第一图像集中的图像块对应的预测结果,并基于所述预测集中的预测结果确定所述第一图像集中的图像块对应的预测对齐图像块;基于所述第一图像集中的图像块对应的预测对齐图像块和所述第三图像集中对应的图像块确定第一损失函数,基于所述第一图像集中的图像块对应的预测对齐图像块的文字骨架和所述第二图像集中对应的图像块的文字骨架确定第二损失函数;并且基于所述第一损失函数和所述第二损失函数训练所述对齐模型,以获得训练后的所述对齐模型。在这种情况下,通过第一损失函数能够使预测对齐图像块越来越接近金标准,并且通过第二损失函数能够降低预测对齐图像块偏离失真图像块中文字
形态的风险,还能够降低金标准中可能存在的误差的影响,以实现预测对齐图像块与标签图像块在位置上对齐并且文字形态上更接近失真图像块,能够适配失真图像中文字级别的失真的对齐,进而能够提高对齐精度和准确度。
[0007]另外,在本公开第一方面所涉及的训练方法中,可选地,在所述几何变换中,基于各个原始文档的原始图像和失真图像中的文字区域对应的图像块获取几何变化参数,利用所述几何变换参数对各个原始文档的原始图像进行变换以使变换后的原始图像与失真图像之间的文字形状对齐。在这种情况下,基于文字区域进行几何变换,能够降低原始图像和/或失真图像中的除文字以外的其他内容的干扰。
[0008]另外,在本公开第一方面所涉及的训练方法中,可选地,在所述位置对齐中,针对各个原始文档,将所述几何变换后的原始图像的文字骨架作为第一骨架,将失真图像的文字骨架作为第二骨架,基于所述第一骨架和所述第二骨架之间的重叠程度确定所述几何变换后的原始图像中的预设位置在失真图像中的对齐位置,基于所述对齐位置将所述几何变换后的原始图像与失真图像的位置进行对齐。在这种情况下,文字骨架能够降低文字失真对对齐结果的负面影响,以兼容有些失真后的文字容易往外扩散或由于失真导致的边缘模糊的情况,进而能够得到更准确的对齐位置。
[0009]另外,在本公开第一方面所涉及的训练方法中,可选地,将所述第三图像集中的各个图像块作为标签图像块,基于所述标签图像块与所述标签图像块对应的预测对齐图像块之间的相似度确定所述第一损失函数;和/或将所述第二图像集中的各个图像块作为失真图像块,基于所述失真图像块的文字骨架与所述失真图像块对应的预测对齐图像块的文字骨架之间的重合程度确定所述第二损失函数。在这种情况下,通过第一损失函数能够使预测对齐图像块越来越接近金标准。另外,通过第二损失函数能够降低预测对齐图像块偏离失真图像块中文字形态的风险,还能够降低金标准中可能存在的误差的影响,以实现预测对齐图像块与原始图像块在位置上对齐并且文字形态上更接近失真图像块。
[0010]另外,在本公开第一方面所涉及的训练方法中,可选地,所述图像块的尺寸大小一致,所述图像块中的文字的数量不小于1。
[0011]另外,在本公开第一方面所涉及的训练方法中,可选地,所述图像块的划分粒度包括单个字、多个字、单行文字和多行文字中的至少一种。在这种情况下,能够根据需求获得相应的划分粒度的图像块。
[0012]另外,在本公开第一方面所涉及的训练方法中,可选地,所述失真图像包括合法图像和翻拍图像中的至少一种,所述合法图像为由第一采集设备对所述原始图像进行采集获得的图像,所述翻拍图像为将所述合法图像打印至实物载体上得到打印图像,再由第二采集设备对所述打印图像进行采集获得的图像。
[0013]另外,在本公开第一方面所涉及的训练方法中,可选地,所述对齐模型的输入为所述第一图像集与所述第二图像集中位置匹配的每对图像块在通道维度上叠加的结果,所述对齐模型的输出为所述预测结果,所述预测结果为预测位移数据,所述预测位移数据用于对所述第一图像集的图像块中的像素点进行移动以确定所述第一图像集中的图像块对应的预测对齐图像块。在这种情况下,在已知第一图像集中的图像块和预测位移数据的情况下,能够基于预测位移数据确定预测对齐图像块。
[0014]另外,在本公开第一方面所涉及的训练方法中,可选地,所述预测位移数据包括分
别位于两个通道的第一位移图像和第二位移图像,所述第一位移图像中的各个位置的像素值表示用于对所述第一图像集的图像块的对应位置的像素点进行水平移动的水平参数,所述第二位移图像的各个位置的像素值表示用于对所述第一图像集的图像块的对应位置的像素点进行垂直移动的垂直参数。
[0015]本公开第二方面提供一种针对文字失真的对齐模型的训练装置,包括存储器,用于非暂时性存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,所述计算机可读指令被所述处理器运行时执行本公开第一方面所涉及的训练方法。
[0016]根据本公开,提供一种能够提高对齐精度和准确度的针对文字失真的对齐模型的训练方法及训练装置。
附图说明
[0017]现在将仅通过参考附图的例子进一步详细地解释本公开,其中:
...

【技术保护点】

【技术特征摘要】
1.一种针对文字失真的对齐模型的训练方法,其特征在于,所述对齐模型是用于将原始文档对应的无失真的原始图像与有失真的失真图像进行位置对齐的深度神经网络,所述训练方法包括:获取多个原始文档,并对所述多个原始文档中的各个原始文档的原始图像进行几何变换和基于文字骨架的位置对齐以获取标签图像,所述标签图像为对齐后的原始图像;分别将所述多个原始文档对应的原始图像、失真图像和标签图像中的文字区域对应的图像块作为第一图像集、第二图像集和第三图像集;获取所述对齐模型针对所述第一图像集和所述第二图像集进行预测而获得的预测集,所述预测集包括与所述第一图像集中的图像块对应的预测结果,并基于所述预测集中的预测结果确定所述第一图像集中的图像块对应的预测对齐图像块;基于所述第一图像集中的图像块对应的预测对齐图像块和所述第三图像集中对应的图像块确定第一损失函数,基于所述第一图像集中的图像块对应的预测对齐图像块的文字骨架和所述第二图像集中对应的图像块的文字骨架确定第二损失函数;并且基于所述第一损失函数和所述第二损失函数训练所述对齐模型,以获得训练后的所述对齐模型。2.根据权利要求1所述的训练方法,其特征在于:在所述几何变换中,基于各个原始文档的原始图像和失真图像中的文字区域对应的图像块获取几何变化参数,利用所述几何变换参数对各个原始文档的原始图像进行变换以使变换后的原始图像与失真图像之间的文字形状对齐。3.根据权利要求1所述的训练方法,其特征在于:在所述位置对齐中,针对各个原始文档,将所述几何变换后的原始图像的文字骨架作为第一骨架,将失真图像的文字骨架作为第二骨架,基于所述第一骨架和所述第二骨架之间的重叠程度确定所述几何变换后的原始图像中的预设位置在失真图像中的对齐位置,基于所述对齐位置将所述几何变换后的原始图像与失真图像的位置进行对齐。4.根据权利要求1所述的训练方法,其特征在于:将所述第三图像集中的各个图像块作为标签图像块,基于所...

【专利技术属性】
技术研发人员:陈昌盛陈自炜
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1