一种图像矫正方法、装置、电子设备和存储介质制造方法及图纸

技术编号：25186703 阅读：30 留言：0更新日期：2020-08-07 21:14

本申请公开了一种图像矫正方法、装置、电子设备和存储介质；本申请可以获取目标文本图像；对所述目标文本图像进行文本片段区域识别；获取参考图，所述参考图关注与所述文本片段区域位置对应的区域；将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；根据全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。本申请可以基于对目标文本图像的文本片段区域的关注，能够对目标文本图像更好地矫正，有利于提升文本识别的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像矫正方法、装置、电子设备和存储介质
本申请涉及计算机
，具体涉及一种图像矫正方法、装置、电子设备和存储介质。
技术介绍
随着科技的发展，便捷式照相机和智能手机日益普及，用户可以通过拍照将纸质文档转化为数字化文档，以对纸质文档进行存档、检索和共享，并用于进一步处理、交换、信息提取和内容分析。然而，不同于使用平台式扫描仪对纸质文档进行扫描，对于移动设备，由于纸张的物理变形、拍摄设备的限制和光照条件等不可控因素，拍摄到的文档图像往往不可避免地存在某种程度的失真。因此，需要对这些文档图像进行矫正，才可以进行后续的文字识别。在目前的相关技术中，一般通过对纸张进行三维形状重建的方法或者通过纸张二维形状估计方法，来对文档图像进行矫正。在纸张三维形状重建方法中，可使用点云采集设备以及深度摄像机等采集纸张的三维数据，以重建纸张的三维形状，进而来矫正文档图像，然而，该方法对采集设备的要求比较高，不具备普适性。对于纸张二维形状估计方法，利用的是纸张的低层次特征，如光照和阴影，但是由于这种特征的建模不是数据驱动的，往往对于角度...

【技术保护点】
1.一种图像矫正方法，其特征在于，包括：/n获取目标文本图像；/n对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；/n获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；/n将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；/n根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；/n基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。/n

【技术特征摘要】
1.一种图像矫正方法，其特征在于，包括：
获取目标文本图像；
对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；
获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；
将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；
根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；
基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域，包括：
对所述目标文本图像进行特征提取，得到所述目标文本图像的特征图；
基于滑动的文本窗口对所述特征图进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

3.根据权利要求2所述的方法，其特征在于，所述目标文本图像的特征图包括多尺度的特征图；所述基于滑动的文本窗口对所述特征图进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域，包括：
通过滑动的文本窗口对每个尺度下的特征图进行文本片段区域识别，得到每个尺度下的特征图的候选文本片段区域；
将各个尺度的候选文本片段区域进行融合，以确定所述目标文本图像的至少一个文本片段区域。

4.根据权利要求3所述的方法，其特征在于，所述通过滑动的文本窗口对每个尺度下的特征图进行文本片段区域识别，得到每个尺度下的特征图的候选文本片段区域，包括：
确定目标尺度下的特征图对应的至少一个目标文本窗口；
基于至少一个目标文本窗口，在目标尺度下的特征图上进行滑动；
在识别到目标文本窗口中的内容为文本内容时，确定所述目标文本窗口对应的区域为所述目标尺度下的特征图的候选文本片段区域，得到每个尺度下的特征图的候选文本片段区域。

5.根据权利要求2所述的方法，其特征在于，所述对所述目标文本图像进行特征提取，得到所述目标文本图像的特征图，包括：
对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的多个尺度的特征图。

6.根据权利要求5所述的方法，其特征在于，所述对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的多个尺度的特征图，包括：
对所述目标文本图像进行多次下采样处理，得到所述目标文本图像多个尺度下的下采样特征图；
对目标尺度的下采样特征图进行多次上采样处理，得到所述目标文本图像多个尺度下的上采样融合特征图，其中，每个尺度的上采样输入为相邻尺度的上采样特征图和下采样特征图融合得到的融合特征；
对每个尺度的上采样融合特征图进行卷积操作，得到所述目标文本图像的每个尺度下的特征图。

7.根据权利要求1所述的方法，其特征在于，所述将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图，包括：
基于所述参考图对所述文本片段区域中像素的像素值进行调整，得到关注所述文本片段区域的局部文本区域关注图；
将目标文本图像中的非文本片段区域中像素的像素值调整为预设值，其中，所述非文本片段区域为目标文本图像中除文本片段区域外的其他区域；
基于每个文本片段区域的局部文本区域关注图和所述非文本片段区域中像素的像素值，得到关注每个文本片段区域的全局文本区域关注图。

8.根据权利要求1所述的方法，其特征在于，所述根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息，包括：
对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息...

【专利技术属性】
技术研发人员：刘皓，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人