【技术实现步骤摘要】
一种基于渐进式生成对抗的古籍汉字图像去噪方法
[0001]本专利技术属于图像处理
,具体涉及一种基于渐进式生成对抗的古籍汉字图像去噪方法。
技术介绍
[0002]在漫漫的岁月长河里,华夏民族创造了丰富多彩的珍贵文化遗产,其中古籍文献是中华民族智慧的结晶,也是记录华夏文明成果最直接的载体,是全人类的瑰宝。中华古籍作为民藏族文化命脉的一部分,其利用价值是高不可沽。文献有着特殊的历史背景,属于不可再生性的文化资源,而数字化是古籍再生性保护的手段,所以古籍数字化将是未来的发展目标。通过图像去噪来提高古籍汉字图像的质量,并在改善图像视觉效果的基础上对其进行识别,为实现古籍数字化做好充足准备,为弘扬中国传统文化奠定良好基础。
技术实现思路
[0003]本专利技术的目的是提供一种基于渐进式生成对抗的古籍汉字图像去噪方法,该方法可在去除与笔画结构粘连的噪声同时弱化笔画空洞现象,保证汉字结构的完整性。
[0004]本专利技术所采用的技术方案是,一种基于渐进式生成对抗的古籍汉字图像去噪方法,具体按照以下步骤实施:< ...
【技术保护点】
【技术特征摘要】
1.一种基于渐进式生成对抗的古籍汉字图像去噪方法,其特征在于,具体按照以下步骤实施:步骤1、构建古籍汉字图像数据库,引入人工合成噪声来模拟真实的古籍汉字图像形态形成源图像x,与原始无噪图像即目标图像y组合形成配对数据集用于模型的对抗训练;步骤2、结合汉字书写规范模型“田字格”,提出基于渐进式生成对抗的古籍汉字图像去噪模型的生成器网络,在全局分支的生成图像的基础上,根据汉字书写规范模型,构建四个局部分支的生成图像来完成对汉字细节信息的补充,弱化由于缺少局部细节而产生的笔画与噪声粘连现象;步骤3、提出基于渐进式生成对抗的古籍汉字图像去噪模型的判别器网络,将四个局部分支的生成图像,根据各自的位置缝合成一张图像,然后把缝合好的图像与全局分支的生成图像进行融合以生成最终的去噪图像;最后将最终的去噪图像与源图像分别与目标图像组成数据对输入判别器D进行真伪判别;步骤4、网络模型由生成器和判别器组成,进行网络模型训练。2.根据权利要求1所述的一种基于渐进式生成对抗的古籍汉字图像去噪方法,其特征在于,步骤1具体按照以下步骤实施:步骤1.1获取常用的汉字图像,每个汉字图像包括七种字体,每个字体包括100种汉字;步骤1.2对汉字图像进行二值化处理;步骤1.3为每幅汉字图像引入人工合成噪声来模拟真实的古籍汉字图像形态形成源图像x;步骤1.4将源图像x与目标图像y形成{x,y}的配对数据集用于网络的训练。3.根据权利要求1所述的一种基于渐进式生成对抗的古籍汉字图像去噪方法,其特征在于,步骤2具体按照以下步骤实施:步骤2.1全局分支,通过将汉字的整体图像输入生成器G来捕捉全局最显著的噪声并去除;步骤2.2局部分支,将汉字图像预先按照宽高的中点进行等分裁剪,然后以渐进的方式依次输入生成器G来对局部汉字笔画结构附近的噪声进行去除;步骤2.3生成器结构由下采样层、注意力残差模块以及上采样层组成,在生成器网络的下采样部分,不采用任何池化层,使用三组卷积层来提取图像的浅层特征,每层卷积后加批量归一化层BN以及激活函数层LReLU来增加网络的非线性从而加速收敛;核心迁移层采用引入通道注意力机制的残差块进行构建,帮助网络聚焦重点区域,加强各层之间的信息传递,从而提取更深层次的隐藏信息;其中,通道注意力机制包括有全局信息嵌入、自适应重新矫正以及重标定操作。4.根据权利要求3所述的一种基于渐进式生成对抗的古籍汉字图像去噪方法,其特征在于,步骤2.3中,所述全局信息嵌入具体实施过程为:为了能够建模通道间的依赖关系,使用全局平均池化层将所有通道信息用一个通道描述符来表示,将每个通道上H,W维度的信息压缩为一个数;z∈R
C
是对特征U在空间维度H,W执行全局平均池化后的结果,其计算过程如式(2)所示:
式中:F
gp
——全局池化操作;u
c
——第c个特征映射;z
c
——第c个元素在特征U在空间维度H,W执行全局平均池化后的结果;使用该操作可以将H
×
W
×
C矩阵压缩到了1
×1×
C,让每个通道的信息都用该通道的全局平均池化来表示。5.根据权利要求4所述的一种基于渐进式生成对抗的古籍汉字图像去噪方法,其特征在于,步骤2.3中,所述自适应重新矫正具体实施过程为:为了能够使用压缩过的信息对通道关系进行建模,构建全连接层使得通道间关系变得灵活且非线性,变换的过程如式(3)所示:s=F
fc
(z,W)=σ(g(z,W))=σ(W2δ(W1z))(3)式中:F
fc
——全连接层操作;σ——Sigm...
【专利技术属性】
技术研发人员:缪亚林,梁莉,姬怡纯,李国栋,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。