文档图像矫正模型的训练方法、文档图像的矫正方法技术

技术编号：37310035 阅读：14 留言：0更新日期：2023-04-21 22:53

本公开提供了一种文档图像矫正模型的训练方法、文档图像的矫正方法，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。方案为：获取样本文档图像和标注文档图像，根据样本文档图像和标注文档图像，确定预测映射图，其中，预测映射图用于表征，样本文档图像与标注文档图像之间的位置对应关系，构建预测映射图中的背景部分和文档部分各自对应的损失函数，并根据各自对应的损失函数训练得到文档图像矫正模型，其中，文档图像矫正模型用于对待矫正的变形文档图像进行矫正，既考虑了文档部分的损失情况，又考虑了背景部分的损失情况，以使得训练较为完善和全面，从而提高训练的有效性和可靠性。从而提高训练的有效性和可靠性。从而提高训练的有效性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
文档图像矫正模型的训练方法、文档图像的矫正方法

[0001]本公开涉及人工智能
，具体为深度学习、图像处理、计算机视觉
，可应用于文字识别(optical character recognition，OCR)等场景，尤其涉及一种文档图像矫正模型的训练方法、文档图像的矫正方法。

技术介绍

[0002]文档矫正是通过特定的技术手段将变形(包括扭曲和褶皱等)的文档图像还原成符合书写和阅读习惯的文档图像。
[0003]随着人工神经网络的发展，在一些实施例中，可以采用人工神经网络训练得到文档图像矫正模型，以采用文档图像矫正模型对变形的文档图像进行矫正，从而得到矫正后的文档图像。

技术实现思路

[0004]本公开提供了一种用于文档图像矫正模型的有效性和可靠性的文档图像矫正模型的训练方法、文档图像的矫正方法。
[0005]根据本公开的第一方面，提供了一种文档图像矫正模型的训练方法，包括：
[0006]获取样本文档图像和标注文档图像，其中，所述样本文档图像为变形的文档图像，所述标注文档图像为所述样本文档图像矫正后的文档图像；
[0007]根据所述样本文档图像和所述标注文档图像，确定预测映射图，其中，所述预测映射图用于表征，所述样本文档图像与所述标注文档图像之间的位置对应关系；
[0008]构建所述预测映射图中的背景部分和文档部分各自对应的损失函数，并根据所述各自对应的损失函数训练得到文档图像矫正模型，其中，所述文档图像矫正模型用于对待矫正的变形文档图像进行矫正。r/>[0009]根据本公开的第二方面，提供了一种文档图像的矫正方法，包括：
[0010]获取待矫正的变形文档图像；
[0011]将所述待矫正的变形文档图像输入至文档图像矫正模型，输出目标映射图，其中，所述文档图像矫正模型是基于如第一方面所述的方法训练得到的，所述目标映射图用于表征，所述待矫正的变形文档图像、以及矫正后的文档图像之间的位置对应关系；
[0012]根据所述目标映射图和所述待矫正的变形文档图像，生成所述矫正后的文档图像。
[0013]根据本公开的第三方面，提供了一种文档图像矫正模型的训练装置，包括：
[0014]第一获取单元，用于获取样本文档图像和标注文档图像，其中，所述样本文档图像为变形的文档图像，所述标注文档图像为所述样本文档图像矫正后的文档图像；
[0015]确定单元，用于根据所述样本文档图像和所述标注文档图像，确定预测映射图，其中，所述预测映射图用于表征，所述样本文档图像与所述标注文档图像之间的位置对应关系；
[0016]构建单元，用于构建所述预测映射图中的背景部分和文档部分各自对应的损失函数；
[0017]训练单元，用于根据所述各自对应的损失函数训练得到文档图像矫正模型，其中，所述文档图像矫正模型用于对待矫正的变形文档图像进行矫正。
[0018]根据本公开的第四方面，提供了一种文档图像的矫正装置，包括：
[0019]第二获取单元，用于获取待矫正的变形文档图像；
[0020]预测单元，用于将所述待矫正的变形文档图像输入至文档图像矫正模型，输出目标映射图，其中，所述文档图像矫正模型是基于如第一方面所述的方法训练得到的，所述目标映射图用于表征，所述待矫正的变形文档图像、以及矫正后的文档图像之间的位置对应关系；
[0021]生成单元，用于根据所述目标映射图和所述待矫正的变形文档图像，生成所述矫正后的文档图像。
[0022]根据本公开的第五方面，提供了一种电子设备，包括：
[0023]至少一个处理器；以及
[0024]与所述至少一个处理器通信连接的存储器；其中，
[0025]所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面或者第二方面所述的方法。
[0026]根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面或者第二方面所述的方法。
[0027]根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或者第二方面所述的方法。
[0028]本公开提供的文档图像矫正模型的训练方法、文档图像的矫正方法，包括：获取样本文档图像和标注文档图像，其中，样本文档图像为变形的文档图像，标注文档图像为样本文档图像矫正后的文档图像，根据样本文档图像和标注文档图像，确定预测映射图，其中，预测映射图用于表征，样本文档图像与标注文档图像之间的位置对应关系，构建预测映射图中的背景部分和文档部分各自对应的损失函数，并根据各自对应的损失函数训练得到文档图像矫正模型，其中，文档图像矫正模型用于对待矫正的变形文档图像进行矫正，通过确定表征样本文档图像与标注文档图像之间的位置对应关系的预测映射图，以对预测映射图中的背景部分和文档部分分别构建各自对应的损失函数，以结合各自对应的损失函数训练得到文档图像矫正模型的技术特征，既考虑了文档部分的损失情况，又考虑了背景部分的损失情况，以使得训练较为完善和全面，从而提高训练的有效性和可靠性，进而当基于训练得到的文档图像矫正模型对待矫正的变形文档图像进行矫正时，提高矫正的准确性，尤其是针对存在部分文档缺失的待矫正的变形文档图像，可以相对高度还原缺失的部分文档，进一步提高矫正的有效性和可靠性。
[0029]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案，不构成对本公开的限定。其中：
[0031]图1是根据本公开实施例的矫正前后比对示意图一；
[0032]图2是根据本公开第一实施例的示意图；
[0033]图3是根据本公开第二实施例的示意图；
[0034]图4是根据本公开第三实施例的示意图；
[0035]图5是根据本公开实施例的文档图像矫正模型的训练方法的原理示意图；
[0036]图6是根据本公开第四实施例的示意图；
[0037]图7是根据本公开实施例的矫正前后比对示意图二；
[0038]图8是根据本公开实施例的矫正前后比对示意图三；
[0039]图9是根据本公开第五实施例的示意图；
[0040]图10是根据本公开第六实施例的示意图；
[0041]图11是根据本公开第七实施例的示意图；
[0042]图12是根据本公开第八实施例的示意图；
[0043]图13是根据本公开第九实施例的示意图；
[0044]图14是根据本公开第十实施例的示意图；
[0045]图15是本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档图像矫正模型的训练方法，包括：获取样本文档图像和标注文档图像，其中，所述样本文档图像为变形的文档图像，所述标注文档图像为所述样本文档图像矫正后的文档图像；根据所述样本文档图像和所述标注文档图像，确定预测映射图，其中，所述预测映射图用于表征，所述样本文档图像与所述标注文档图像之间的位置对应关系；构建所述预测映射图中的背景部分和文档部分各自对应的损失函数，并根据所述各自对应的损失函数训练得到文档图像矫正模型，其中，所述文档图像矫正模型用于对待矫正的变形文档图像进行矫正。2.根据权利要求1所述的方法，其中，所述预测映射图包括预测值；构建所述预测映射图中的背景部分和文档部分各自对应的损失函数，包括：根据所述预测映射图中所述文档部分的预测值、以及所述文档部分在所述标注文档图像的标注真值之间的差异信息，构建所述文档部分的损失函数；确定在所述标注文档图像中的标注真值中，所述文档部分对应的归一化标注真值区间，并根据所述归一化标注真值区间、以及所述预测映射图中所述背景部分的预测值，构建所述背景部分的损失函数。3.根据权利要求1或2所述的方法，其中，所述各自对应的损失函数包括：所述背景部分的分类函数、所述文档部分的回归函数。4.根据权利要求3所述的方法，其中，所述分类函数为合页损失函数、对数损失函数、动态缩放的交叉熵损失函数、相对熵损失函数、以及指数损失函数中的一种；所述回归损失函数为均方误差损失函数、二次损失函数、平均绝对误差损失函数、平滑的平均绝对误差损失函数、预测误差的双曲余弦的对数的损失函数、分位数损失函数中的一种。5.根据权利要求1
‑
4中任一项所述的方法，其中，根据所述样本文档图像和所述标注文档图像，确定预测映射图，包括：对所述样本文档图像进行卷积处理，得到所述样本文档图像的浅层图像特征；根据所述浅层图像特征和所述标注文档图像，确定所述预测映射图。6.根据权利要求5所述的方法，其中，根据所述浅层图像特征和所述和所述标注文档图像，确定所述预测映射图，包括：对所述浅层图像特征进行编码处理，得到全局注意力图像特征；根据所述全局注意力图像特征和所述标注文档图像，确定所述预测映射图。7.根据权利要求6所述的方法，其中，根据所述全局注意力图像特征和所述标注文档图像，确定所述预测映射图，包括：根据预设的初始化学习向量，对所述全局注意力图像特征进行解码处理，得到预测初始坐标偏移量，其中，所述预测初始坐标偏移量用于表征，所述样本文档图像中的像素点相当于所述标注文档图像中的像素点的坐标的偏移量；根据所述预测初始坐标偏移量和所述标注文档图像，确定所述预测映射图。8.根据权利要求7所述的方法，其中，根据所述预测初始坐标偏移量和所述标注文档图像，确定所述预测映射图，包括：对所述预测初始坐标偏移量分别进行第一卷积处理和第二卷积处理，得到所述第一卷
积处理对应的预测特征图、以及所述第二卷积处理对应的预测掩膜图，其中，所述预测特征图用于表征预测目标坐标偏移量，所述预测掩膜图用于表征所述预测特征图对应的权重矩阵；根据所述预测特征图、所述预测掩膜图、以及所述标注文档图像，确定所述预测映射图。9.根据权利要求8所述的方法，其中，根据所述预测特征图、所述预测掩膜图、以及所述标注文档图像，确定所述预测映射图，包括：对所述预测特征图和所述预测掩膜图进行卷积处理，得到卷积处理结果，并对所述卷积处理结果进行矩阵变换处理，得到所述样本文档图像中像素点的预测坐标信息；获取所述像素点在所述标注文档图像中的标注坐标信息；根据所述预测坐标信息和所述标注坐标信息，生成预测后向图，其中，所述预测映射图包括所述预测后向图，所述预测后向图用于表征，所述样本文档图像中的像素点的预测坐标信息映射至所述标注文档图像中的像素点的标注坐标信息的坐标映射关系。10.一种文档图像的矫正方法，包括：获取待矫正的变形文档图像；将所述待矫正的变形文档图像输入至文档图像矫正模型，输出目标映射图，其中，所述文档图像矫正模型是基于如权利要求1
‑
9中任一项所述的方法训练得到的，所述目标映射图用于表征，所述待矫正的变形文档图像、以及矫正后的文档图像之间的位置对应关系；根据所述目标映射图和所述待矫正的变形文档图像，生成所述矫正后的文档图像。11.根据权利要求10所述的方法，其中，根据所述目标映射图和所述待矫正的变形文档图像，生成所述矫正后的文档图像，包括：获取所述待矫正的变形文档图像中第一像素点的第一颜色值；根据所述目标映射图和所述第一颜色值，构建所述矫正后的文档图像。12.根据权利要求11所述的方法，其中，根据所述目标映射图和所述颜色值，构建所述矫正后的文档图像，包括：根据所述目标映射图、以及所述待矫正的变形文档图像中第一像素点的第一位置信息，确定所述矫正后的文档图像中第二像素点的第二位置信息；根据所述第一颜色值确定所述第二像素点的第二颜色值；其中，所述矫正后的文档图像中包括所述第二像素点，所述第二像素点具有所述第二位置信息和所述第二颜色值。13.一种文档图像矫正模型的训练装置，包括：第一获取单元，用于获取样本文档图像和标注文档图像，其中，所述样本文档图像为变形的文档图像，所述标注文档图像为所述样本文档图像矫正后的文档图像；确定单元，用于根据所述样本文档图像和所述标注文档图像，确定预测映射图，其中，所述预测映射图用于表征，所述样本文档图像与所述标注文档图像之间的位置对应关系；构建单元，用于构建所述预测映射图中的背景部分和文档部分各自对应的损失函数；训练单元，用于根据所述各自对应的...

【专利技术属性】
技术研发人员：李星，谢群义，钦夏孟，姚锟，
申请(专利权)人：百度中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人