图像矫正模型的获取方法、处理方法、装置、设备与介质制造方法及图纸

技术编号：37974535 阅读：6 留言：0更新日期：2023-06-30 09:49

本公开提供一种图像矫正模型的获取方法、处理方法、装置、设备与介质，涉及人工智能领域，尤其涉及大数据、计算机视觉、图像处理领域。具体实现方案为：将训练样本数据输入预设网络模型，获取初始变形点的第一预测信息和初始参考点的第二预测信息；训练样本数据包括变形文档图像和标注信息；标注信息包括分别与初始变形点和初始参考点的位置关联的信息；基于标注信息、第一预测信息、第二预测信息和初始变形点的预设权重，确定预测损失值；变形文档图像中包含位于图像边缘区域的预设初始变形点，以及除预设初始变形点之外的其他剩余初始变形点；预设初始变形点的权重大于其他剩余初始变形点的权重；根据预测损失值调整预设网络模型的网络参数。模型的网络参数。模型的网络参数。

全部详细技术资料下载

【技术实现步骤摘要】
图像矫正模型的获取方法、处理方法、装置、设备与介质

[0001]本公开涉及人工智能领域，尤其涉及大数据、计算机视觉、图像处理领域，具体提供一种图像矫正模型的获取方法、处理方法、装置、设备与介质。

技术介绍

[0002]文档图像的自动识别已成为各种业务流程中不可或缺的功能。但在文档图像的拍摄过程中，受纸张物理形变、拍摄环境、相机角度等因素影响，拍摄得到的文档图像往往存在倾斜、扭曲、褶皱等问题，导致文档图像中的文档内容难以被检测和识别，严重影响下游任务(如，文字检测、识别)的准确率。
[0003]为了降低文档图像变形对下游任务造成的影响，需对文档图像中的文档内容进行矫正以提升下游任务的精确度。目前，基于深度学习的文档矫正方法按照矫正原理可以分为光流预测方法和初始变形点预测方法。其中，光流预测方法以编码器、解码器为基础，该方法的参数量大、预测时间长，性能往往不能满足用户需求。初始变形点预测方法是将完整的图像输入到矫正模型中预测初始变形点，根据预测的初始变形点对图像中的文档内容进行矫正。
[0004]对于初始变形点预测方法，由于引入了杂乱的拍摄背景，矫正模型需要对图像中的前景和背景进行定位，另外，初始变形点预测方法还特别依赖应用场景中的特定数据集，由于保险理赔的文档图像所包含的文档内容、文档大小、拍摄背景等方面与常规图像均不相同，基于包括常规图像的数据集所训练得到的模型在应用于针对文档图像中的文档矫正时，矫正效果差。通常用于训练模型的某一种类型的文档图像的数量较少，基于少量的文档图像所训练得到的模型也难以保证...

【技术保护点】

【技术特征摘要】
1.一种文档图像矫正模型的获取方法，所述获取方法包括：获取训练样本数据；其中，所述训练样本数据包括变形文档图像和标注信息；所述标注信息包括基于所述变形文档图像标注的初始变形点和初始参考点，以及分别与所述初始变形点和所述初始参考点的位置关联的信息；将所述训练样本数据输入预设网络模型，获取所述初始变形点的第一预测信息和所述初始参考点的第二预测信息；基于所述标注信息、所述第一预测信息、所述第二预测信息以及所述初始变形点的预设权重，确定预测损失值；其中，所述变形文档图像中包含位于图像边缘区域的若干预设初始变形点，以及除若干所述预设初始变形点之外的其他剩余初始变形点；所述预设初始变形点的权重大于其他剩余初始变形点的权重；根据所述预测损失值调整所述预设网络模型的网络参数。2.根据权利要求1所述的获取方法，所述预设初始变形点的预设权重与第一距离呈正相关；其中，所述第一距离为所述预设初始变形点到所述变形文档图像的中心的距离。3.根据权利要求1所述的获取方法，所述基于所述标注信息、所述第一预测信息、所述第二预测信息以及所述初始变形点的预设权重，确定预测损失值的步骤包括：根据所述初始变形点的所述第一预测信息、第一位置关联信息以及所述预设权重，确定变形点损失值；根据所述初始参考点的所述第二预测信息和第二位置关联信息，确定参考点损失值；根据所述变形点损失值和所述参考点损失值，计算得到所述预测损失值。4.根据权利要求3所述的获取方法，所述第一预测信息包括所述初始变形点的第一预测位置，所述第一位置关联信息包括所述初始变形点的第一标注位置；所述根据所述初始变形点的所述第一预测信息、第一位置关联信息以及所述预设权重，确定变形点损失值的步骤包括：计算得到每一所述初始变形点的第一预测偏差值；其中，所述第一预测偏差值为所述第一预测位置与相对应的所述第一标注位置之间的差值；根据每一所述初始变形点的所述第一预测偏差值和所述预设权重，确定第一预测损失值。5.根据权利要求4所述的获取方法，所述根据每一所述初始变形点的所述第一预测偏差值和所述预设权重，确定第一预测损失值的步骤包括：获取所述第一预测偏差值与预设偏差阈值的比较结果，根据所述比较结果分别确定每一所述初始变形点的第一初始损失值；计算得到每一所述初始变形点的所述第一初始损失值与相对应的所述预设权重的加权和；计算得到所述加权和的第一平均值，并将所述第一平均值作为所述第一预测损失值。6.根据权利要求4所述的获取方法，所述根据所述初始变形点的所述第一预测信息、第
一位置关联信息以及所述预设权重，确定变形点损失值的步骤还包括：根据所述初始变形点的所述第一标注位置，获取每一所述初始变形点的标注邻居距离；其中，所述标注邻居距离为所述初始变形点到每一相邻初始变形点的标注距离之和；根据所述初始变形点的所述第一预测位置，获取每一所述初始变形点的预测邻居距离；其中，所述预测邻居距离为所述初始变形点到每一所述相邻初始变形点的预测距离之和；根据每一所述初始变形点的所述标注邻居距离和所述预测邻居距离，确定第二预测损失值。7.根据权利要求6所述的获取方法，所述根据每一所述初始变形点的所述标注邻居距离和所述预测邻居距离，确定第二预测损失值的步骤包括：分别计算得到每一所述初始变形点的第二预测偏差值；其中，所述第二预测偏差值为所述标注邻居距离和相对应的所述预测邻居距离之间的差值；根据每一所述初始变形点的所述第二预测偏差值，计算得到所述第二预测损失值；其中，所述第二预测损失值为每一所述初始变形点对应的第二平均值，所述第二平均值为由每一所述初始变形点的所述第二预测偏差值的平方之和取平均得到。8.根据权利要求3所述的获取方法，所述第二预测信息包括所述初始参考点之间的预测水平距离和预测垂直距离，所述第二位置关联信息包括所述初始参考点之间的标注水平距离和标注垂直距离；所述根据所述初始参考点的第二预测信息和第二位置关联信息，确定参考点损失值的步骤包括：计算得到所述初始参考点的水平预测偏差值；其中，所述水平预测偏差值为所述预测水平距离与相对应的所述标注水平距离的差值；计算得到所述初始参考点的垂直预测偏差值；其中，所述垂直预测偏差值为所述预测垂直距离与相对应的所述标注垂直距离的差值；根据所述水平预测偏差值和所述垂直预测偏差值，确定所述参考点损失值。9.根据权利要求3所述的获取方法，所述预设网络模型包括依次连接的多层第一卷积神经网络，以及分别连接于最后一层所述第一卷积神经网络的全连接神经网络和第二卷积神经网络；所述将训练样本数据输入所述预设网络模型，分别得到所述变形文档图像中所述初始变形点和相对应的所述初始参考点的预测信息的步骤包括：通过所述多层第一卷积神经网络对所述变形文档图像进行特征提取，以得到特征提取结果；将所述特征提取结果输入所述第二卷积神经网络，以获取所述初始变形点的所述第一预测信息；
将所述特征提取结果输入所述全连接神经网络，以获取所述初始参考点的所述第二预测信息。10.根据权利要求4
‑
9中任一项所述的获取方法，所述获取训练样本数据的步骤包括：获取与目标类型相对应的样本文档图像；将所述样本文档图像按照至少一种预设变形类型进行变形，以得到与所述目标类型相对应的所述训练样本数据。11.根据权利要求10所述的获取方法，所述将所述样本文档图像按照至少一种预设变形类型进行变形，以得到与所述目标类型相对应的所述训练样本数据的步骤包括：将所述样本文档图像划分为若干个大小相同的区域块；将每个所述区域块的顶点设置为所述初始参考点，并根据所述区域块的尺寸信息，获取每一所述初始参考点的第二标注位置；从若干所述初始参考点中随机选取至少一个目标参考点，并针对每一所述目标参考点从所述样本文档图像中随机选取一个相对应的变形控制点，获取所述变形控制点的第三标注位置；根据所述目标参考点的所述第二标注位置、所述变形控制点的所述第三标注位置以及所述预设变形类型，确定每一所述初始参考点的变形控制参数；其中，所述变形控制参数与变形影响距离呈负相关；所述变形影响距离为所述初始参考点到目标直线的距离；所述目标直线由所述目标参考点和相对应的所述变形控制点组成；根据每一所述初始参考点的所述第二标注位置和所述变形控制参数，计算得到相对应的所述初始变形点的所述第一标注位置；根据每一所述初始变形点的所述第一标注位置，和相对应的所述初始参考点的所述第二标注位置，生成所述变形文档图像；根据每一所述初始变形点的所述第一标注位置、所述变形文档图像、所述区域块的所述尺寸信息，生成所述训练样本数据。12.根据权利要求11所述的获取方法，所述根据每一所述初始变形点的所述第一标注位置，和相对应的所述初始参考点的所述第二标注位置，生成所述变形文档图像的步骤包括：获取所述样本文档图像的第一矩阵；根据所述初始变形点的所述第一标注位置，以及所述初始参考点的所述第二标注位置，生成初始变形文档图像的第二矩阵；根据所述第一矩阵与所述第二矩阵形成稀疏映射；其中，所述稀疏映射用于表征所述初始变形文档图像相较于所述样本文档图像存在缺失像素值的像素点的情况；根据所述稀疏映射确定目标像素点；通过预设插值方式对所述目标像素点进行填充，以得到所述变形文档图像。13.根据权利要求10所述的获取方法，所述目标类型为医疗票据。14.一种文档图像处理方法，所述文档图像处理方法包括：利用权利要求1
‑
13中任一项所述的获取方法获取文档图像矫正模型；
获取待矫正文档图像；通过所述文档图像矫正模型，获取所述待矫正文档中初始变形点的第一目标信息，以及初始参考点的第二目标信息；根据所述第一目标信息、所述第二目标信息对所述待矫正文档图像进行矫正。15.根据权利要求14所述的文档图像处理方法，所述获取待矫正文档图像的步骤包括：获取原始拍摄图像；将所述原始拍摄图像输入已训练的预设分割网络模型，去除所述原始拍摄图像中的背景信息，以获取所述待矫正文档图像。16.一种文档图像矫正模型的获取装置，所述获取装置包括：训练样本获取模块，用于获取训练样本数据；其中，所述训练样本数据包括变形文档图像和标注信息；所述标注信息包括基于所述变形文档图像标注的初始变形点和初始参考点，以及分别与所述初始变形点和所述初始参考点的位置关联的信息；第一预测模块，用于将所述训练样本数据输入预设网...

【专利技术属性】
技术研发人员：郑明明，王乐义，向宇波，刘明浩，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人