基于神经网络的图像矫正方法、装置、设备及介质制造方法及图纸

技术编号:31087698 阅读:20 留言:0更新日期:2021-12-01 12:44
本发明专利技术涉及人工智能领域,提供一种基于神经网络的图像矫正方法、装置、设备及介质,能够根据少量平整的样本图片生成大量的扭曲图像作为充足的样本进行训练,同时融合了图片的原始特征与文本线特征,以文本线特征作为全局特征的描述子指导原始图片进行训练,解决了矫正细节恢复不完整的问题,使训练得到的模型具有更加鲁棒平滑的矫正效果,根据光流信息图矫正待矫正图像,得到目标图像,将生成的光流信息图直接作用在原图上,以得到矫正后的平整的图片,进而结合人工智能手段实现更好的图像矫正效果。此外,本发明专利技术还涉及区块链技术,训练得到的模型可存储于区块链节点中。的模型可存储于区块链节点中。的模型可存储于区块链节点中。

【技术实现步骤摘要】
基于神经网络的图像矫正方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于神经网络的图像矫正方法、装置、设备及介质。

技术介绍

[0002]随着科学技术的不断发展以及生活水平的不断提高,利用移动设备进行拍照已经成为人们记录文档信息的普遍方式。
[0003]但是,利用移动设备进行拍摄通常受到角度倾斜、文档物理扭曲、变形等因素的影响,导致在文字识别和结构化信息归档时面临巨大挑战。因此,将一张扭曲变形的文档图像进行自动化展平,不仅能提升文字识别的准确率,同时降低了结构化信息抽取的难度,从整体上提升了文档结构化归档的准确率。
[0004]在现有技术中,针对扭曲、倾斜文档的矫正方法主要包括:基于3D(3

Dimensional)模型重建方法以及基于2D(2

Dimensional)深度学习算法两类。其中,3D模型重建方法常受限于昂贵的校准硬件成本,市场普及率低。近年来,随着深度学习技术的发展,业界出现了新的基于2D矫正的方法,借助卷积神经网络进行端到端的复原,转化为寻本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的图像矫正方法,其特征在于,包括:响应于图像矫正指令,根据所述图像矫正指令获取初始样本;对所述初始样本进行转换,得到第一训练样本;利用所述第一训练样本训练DBNet网络,得到第一模型,并获取所述第一模型的输出作为文本线掩膜图;对所述文本线掩膜图与所述第一训练样本进行融合处理,得到第二训练样本;对所述第一模型与预设的DocUNet网络进行拼接,得到初始网络;利用所述第二训练样本训练所述初始网络,得到第二模型;当接收到待矫正图像时,将所述待矫正图像输入至所述第二模型,并获取所述第二模型的输出作为光流信息图;根据所述光流信息图矫正所述待矫正图像,得到目标图像。2.根据权利要求1所述的基于神经网络的图像矫正方法,其特征在于,所述对所述初始样本进行转换,得到第一训练样本包括:从所述第一训练样本中的每个样本图片上随机获取任意点作为每个样本图片的起始点;从每个样本图片的起始点开始,根据随机生成的步长进行移动,得到移动轨迹,其中,每移动一次随机生成下一次移动的步长,并且,在所述移动轨迹中,在根据所述随机生成的步长确定的每个点上进行扭曲或者翻转;根据移动后的每个样本图片构建所述第一训练样本。3.根据权利要求1所述的基于神经网络的图像矫正方法,其特征在于,所述方法还包括:利用所述第一模型的主干网络提取所述第一训练样本中每个样本图片的图像特征;对每个样本图片的图像特征进行上采样处理,得到与每个样本图片具有相同尺寸的特征图;根据所述特征图进行预测,得到每个样本图片的概率图及阈值图;根据每个样本图片的概率图及阈值图进行二值化处理,得到每个样本图片的文本线掩膜图像。4.根据权利要求1所述的基于神经网络的图像矫正方法,其特征在于,所述对所述文本线掩膜图与所述第一训练样本进行融合处理,得到第二训练样本包括:确定所述文本线掩膜图中的每个掩膜图与所述第一训练样本中的每个样本图片间的对应关系;将对应的掩膜图与样本图片划分为一组,得到至少一个图片组;将每个图片组中的掩膜图及样本图片进行融合,得到至少一个融合图片;整合所述至少一个融合图片,得到所述第二训练样本。5.根据权利要求1所述的基于神经网络的图像矫正方法,其特征在于,在对所述第一模型与预设的DocUNet网络进行拼接前,所述方法还包括:获取初始DocUNet网络;...

【专利技术属性】
技术研发人员:孙超
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1