当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于深度学习的档案扫描图像自动纠偏裁边方法技术

技术编号:38200699 阅读:9 留言:0更新日期:2023-07-21 16:42
本发明专利技术涉及档案扫描图像自动纠偏裁边技术领域,尤其涉及一种基于深度学习的档案扫描图像自动纠偏裁边方法,包括:对档案扫描图像进行预处理;将处理好的图像数据集放入角度校正和边缘切割网络模型中进行训练;对图像进行特征提取;对图像进行自动纠偏裁边处理;利用训练所得模型处理档案扫描图像,并输出经过自动纠偏裁边处理的档案扫描图像。该模型包含特征提取模块、纠偏模块和裁边模块。同时,在纠偏模块和裁边模块中分别加入自适应卷积模块和通道注意力模块,使得较小的角度偏移也能得到精确处理及降低图像的边缘模糊度。本发明专利技术可提升模型计算的速度,使得模型更加轻量化,提高了档案扫描图像纠偏裁边的效率以及精确处理小角度偏移图片。小角度偏移图片。小角度偏移图片。

【技术实现步骤摘要】
一种基于深度学习的档案扫描图像自动纠偏裁边方法


[0001]本专利技术涉及档案扫描图像自动纠偏裁边
,尤其涉及一种基于深度学习的档案扫描图像自动纠偏裁边方法。

技术介绍

[0002]在现代社会,数字化已经成为信息处理的主要方式,各类文档的数字化处理也越来越普遍。在进行档案扫描时,由于扫描仪摆放不当或者档案未被平整放置等原因,导致扫描图像存在扭曲、倾斜、缺角等问题。这些问题会对后续文档识别、分类、检索和浏览等产生严重影响。因此,对于档案扫描图像的自动纠偏和裁边处理成为数字化档案处理中的重要环节。
[0003]目前,已经有许多方法用于解决文档纠偏裁边问题。其中,传统的基于角点检测的方法利用图像的几何形状特征进行纠偏,但是对于一些文档图像存在噪声、阴影等情况时会出现较大误差。此外,基于边缘检测的方法利用图像边缘信息进行纠偏。近年来,深度学习技术的发展使得文档纠偏的效果有了显著提高。其中,基于卷积神经网络(CNN)的文档纠偏方法得到了广泛应用。例如,通过构建CNN模型进行文档自适应纠偏,该方法通过学习文档中的结构信息实现自适应纠偏,但是对于一些文档扭曲角度较小的情况会存在纠偏不准确的问题。此外,另一种基于CNN的文档纠偏方法则是通过学习文档的特征点和边界信息,实现文档的纠偏和裁剪,但是对于文档存在多余边框的情况处理效果不佳。
[0004]虽然现有的文档纠偏方法取得了一定的效果,但是在一些并不扭曲、不缺角、偏移角度很小或者几乎不偏移的但需要去除多余边框的档案扫描图像上取得精确的效果仍然是一个挑战。这是因为这些文档图像的旋转角度很小,传统的旋转角度检测方法很难检测到这些角度,而且文档图像的边框信息并不清晰。因此,需要一种基于深度学习的档案扫描图像自动纠偏裁边方法,能够在处理并不扭曲、不缺角、偏移角度很小或者几乎不偏移的但需要去除多余边框的档案扫描图像时,实现更高精度的自动纠偏和裁边,同时能够处理角度较小、边框信息不清晰等难点情况,提高数字化档案处理的效率和精度。本专利技术的出现,就是为了解决现有技术的不足和局限性,提高档案扫描图像自动纠偏裁边的效率和精度。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种基于深度学习的档案扫描图像自动纠偏裁边方法,用于实现更高精度的自动纠偏和裁边,同时能够处理角度较小、边框信息不清晰等难点情况,提高数字化档案处理的效率和精度。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:
[0007]一种基于深度学习的档案扫描图像自动纠偏裁边方法,包括以下步骤:
[0008]S11、对输入的档案扫描图像进行预处理,包括:1)图像边缘裁切、2)调整图像大小、3)合成数据集、4)数据集分组,以满足模型对输入数据集的要求;
[0009]S12、将处理好的档案扫描图像数据集放入角度校正和边缘切割网络模型中进行
训练,该模型对输入图像进行特征提取;
[0010]S13、采用ACMCN模型先自动检测图像中的边缘,并根据边缘位置进行自动纠偏处理,再自动检测图像中的内容,并根据内容位置进行自动裁边处理,以去除多余的边缘部分;
[0011]S14、处理好的图像此时将被判断是否已经符合设定的纠偏裁边要求,即处理好的档案扫描图像中的所有直线的平均角度偏差值在[0
°
,1
°
]之间,所有边缘的边缘模糊度的值在[0,0.1]之间,若满足该要求,则输出处理好的图像;若不满足该要求,则继续迭代进行纠偏裁边处理,直到满足要求后输出处理好的图像;
[0012]S15、利用训练得到的模型处理档案扫描图像并输出经过自动纠偏裁边处理后的档案扫描图像。
[0013]优选地,在步骤S11中,所述1):图像边缘裁切指先读取n张0度偏斜的已基本裁切好的原始图片,若原始图片不为0度,则手工纠偏为0度;然后进行下一轮的裁切操作,将图像上下左右各裁切掉60个像素以裁掉文档边缘的杂色,并生成新的图像数据集;
[0014]所述2):调整图像大小指将新的图像数据集的所有图像的高度像素设置为480dpi,同时图像的宽度像素根据相应比例进行调整,从而使图像大小统一化,并生成新的图像数据集;
[0015]所述3):合成数据集指将新的图像数据集分别取75%进行垂直翻转和水平翻转的操作,同时选取50%的图像进行旋转的操作,其中旋转角度在区间[

90
°
,90
°
)之间取任意值,接着对所有图像进行压缩增强,指定压缩后的图像质量下限为30JFIF,上限为80JFIF,并选取70%的图像进行随机阴影增强,其中指定阴影可能出现区域为整张图像,阴影数量下限为0,上限为1;然后选取50%的图片进行随机亮度和对比度增强,其中指定对比度调整的幅度范围在0.1到0.34之间,指定图像亮度降低50%;最后选取z张档案扫描图像常见的背景图片与n张处理后的图像进行随机合成,并生成最后的数据集;
[0016]所述4):数据集分组指将最后的数据集按6张图片一组,每组抽取1张图片作为验证集,另外5张图片作为训练集,进而将最后的数据集分成训练集和验证集两个部分。
[0017]优选地,在步骤S12中,所述角度校正和边缘切割网络模型包括:a)特征提取模块、b)纠偏模块、c)裁边模块;具体架构如下:
[0018]a)特征提取模块的网络深度为16层,该网络包含5个卷积层、3个全连接层和8个非线性激活层,其中每个非线性激活层都使用ReLU激活函数,该网络在每个全连接层后都使用了dropout层以防止过拟合,丢弃率分别为0.4、0.3和0.25,并使用softmax激活函数进行最终分类;
[0019]b)纠偏模块的网络深度为9层,该网络包含4个卷积层、4个池化层和1个全连接层,其中每个卷积层的卷积核大小为3
×
3,卷积核个数依次为32、64、128和256,每个池化层的池化窗口大小均为2
×
2,所有卷积层和池化层均使用ReLU激活函数,全连接层的神经元个数为1并使用sigmoid激活函数;
[0020]c)裁边模块的网络深度为4层,该网络包含3个卷积层和1个全连接层,其中每个卷积层的卷积核大小为3
×
3,卷积核个数依次为32、64、128,在全连接层中,第一个隐藏层的神经元数量为256,第二个隐藏层的神经元数量为128;此外,在纠偏模块和裁边模块之后加入一个自适应卷积模块和一个通道注意力模块,自适应卷积模块包含一个一维卷积层,两
个自适应卷积层,一维卷积层输出通道数为1,第一个自适应卷积层输入通道数为1,输出通道数为2,第二个自适应卷积层输入通道数为2,输出通道数为1;其中,自适应卷积层的卷积核大小和形状都是动态生成的,可以根据输入特征图的大小和形状进行自适应调整;通道注意力模块包括一个全局平均池化层、两个全连接层、一个sigmoid激活层;全局平均池化层将输入特征图沿通道维度进行平均池化,得到一个一维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的档案扫描图像自动纠偏裁边方法,其特征在于,包括以下步骤:S11、对输入的档案扫描图像进行预处理,包括:1)图像边缘裁切、2)调整图像大小、3)合成数据集、4)数据集分组,以满足模型对输入数据集的要求;S12、将处理好的档案扫描图像数据集放入角度校正和边缘切割网络模型中进行训练,该模型对输入图像进行特征提取;S13、采用ACMCN模型先自动检测图像中的边缘,并根据边缘位置进行自动纠偏处理,再自动检测图像中的内容,并根据内容位置进行自动裁边处理,以去除多余的边缘部分;S14、处理好的图像此时将被判断是否已经符合设定的纠偏裁边要求,即处理好的档案扫描图像中的所有直线的平均角度偏差值在[0
°
,1
°
]之间,所有边缘的边缘模糊度的值在[0,0.1]之间,若满足该要求,则输出处理好的图像;若不满足该要求,则继续迭代进行纠偏裁边处理,直到满足要求后输出处理好的图像;S15、利用训练得到的模型处理档案扫描图像并输出经过自动纠偏裁边处理后的档案扫描图像。2.根据权利要求1所述的一种基于深度学习的档案扫描图像自动纠偏裁边方法,其特征在于,在步骤S11中,所述1):图像边缘裁切指先读取n张0度偏斜的已基本裁切好的原始图片,若原始图片不为0度,则手工纠偏为0度;然后进行下一轮的裁切操作,将图像上下左右各裁切掉60个像素以裁掉文档边缘的杂色,并生成新的图像数据集;所述2):调整图像大小指将新的图像数据集的所有图像的高度像素设置为480dpi,同时图像的宽度像素根据相应比例进行调整,从而使图像大小统一化,并生成新的图像数据集;所述3):合成数据集指将新的图像数据集分别取75%进行垂直翻转和水平翻转的操作,同时选取50%的图像进行旋转的操作,其中旋转角度在区间[

90
°
,90
°
)之间取任意值,接着对所有图像进行压缩增强,指定压缩后的图像质量下限为30JFIF,上限为80JFIF,并选取70%的图像进行随机阴影增强,其中指定阴影可能出现区域为整张图像,阴影数量下限为0,上限为1;然后选取50%的图片进行随机亮度和对比度增强,其中指定对比度调整的幅度范围在0.1到0.34之间,指定图像亮度降低50%;最后选取z张档案扫描图像常见的背景图片与n张处理后的图像进行随机合成,并生成最后的数据集;所述4):数据集分组指将最后的数据集按6张图片一组,每组抽取1张图片作为验证集,另外5张图片作为训练集,进而将最后的数据集分成训练集和验证集两个部分。3.根据权利要求1所述的一种基于深度学习的档案扫描图像自动纠偏裁边方法,其特征在于,在步骤S12中,所述角度校正和边缘切割网络模型包括:a)特征提取模块、b)纠偏模块、c)裁边模块;具体架构如下:a)特征提取模块的网络深度为16层,该网络包含5个卷积层、3个全连接层和8个非线性激活层,其中每个非线性激活层都使用ReLU激活函数,该网络在每个全连接层后都使用了dropout层以防止过拟合,丢弃率分别为0.4、0.3和0.25,并使用softmax激活函数进行最终分类;b)纠偏模块的网络深度为9层,该网络包含4个卷积层、4个池化层和1个全连接层,其中每个卷积层的卷积核大小为3
×
3,卷积核个数依次为32、64、128和256,每个池化层的池...

【专利技术属性】
技术研发人员:孙强吉红慧陈逸彬蒋行健曹张华邵蔚黄勋
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1