一种基于改进的制造技术

技术编号:39751432 阅读:11 留言:0更新日期:2023-12-17 23:49
本发明专利技术涉及

【技术实现步骤摘要】
一种基于改进的Transformer的文档伪影去除方法


[0001]本专利技术涉及
OCR

,具体为一种基于改进的
Transformer
的文档伪影去除方法


技术介绍

[0002]随着自然语言处理
(NLP)
和自然语言理解
(NLU)
的重要性不断增强,强大的语言模型为优化过时的流程创造了广泛的可能性

[0003]现有技术中,这些过时的流程包括处理扫描的文档

印刷品和传真等非完全数字化的数据

然而,提取这些扫描文档中的文本信息并获得高质量的
OCR
结果并不总是容易的

文档扫描过程中可能存在各种错误和质量问题,改进文档质量是一项具有挑战性的任务

因此,通常采用纠正提取后文本中的错误的方法来解决这个问题,而不是直接提高文档质量

这种方法可以帮助提升自然语言模型的性能,并提高对文档中重要信息的准确提取能力

但是,这些方法无法纠正新实体,例如罕见的姓名

地址或联系方式
(
电话

传真

电子邮件地址
)
,而这些实体对于信息提取任务非常重要

[0004]为了应对上述问题,一些方法已经提出,例如利用生成对抗网络
(GAN)
或基于卷积层的自动编码器来改善文档中的文本质量

这些方法旨在提高
OCR
结果的准确性和文本的可读性,从而为信息提取和其他相关任务提供更可靠的基础

通过这些技术的应用,可以更好地处理文档中的文本信息,识别和纠正错误,使得文本更易于理解和分析

但是,这些研究主要关注去除噪声背景产生的伪影,使用的数据集相对较小且数据变异性较低

除了噪声之外,
OCR
识别结果通常还会受到压缩错误

图像降采样和字符模糊等问题的影响


技术实现思路

[0005]本专利技术的目的在于提供一种基于改进的
Transformer
的文档伪影去除方法,以解决上述
技术介绍
中提出的问题

[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于改进的
Transformer
的文档伪影去除方法,所述方法包括如下步骤:
[0007]S1、

U

Net
网络中引入
Swin Transformer
构成
SU

Net
网络;
[0008]S2、

SU

Net
网络中的跳跃连接替换为多头交叉注意力连接;
[0009]S3、
构建数据集训练改进后的
SU

Net
网络

[0010]优选的,在
U

Net
网络中引入
Swin Transformer
构成
SU

Net
网络的具体操作包括:
[0011]在
SU

Net
中,使用3×3卷积来获得输入图像浅层特征,通过
U

Net
网络进行特征提取,将
Swin Transform Block
作为基本提取模块来替换
U

Net
中的普通卷积层并获取高级语义信息,使用3×3卷积来恢复重建的图

[0012]优选的,在
U

Net
网络中引入
Swin Transformer
构成
SU

Net
网络时,提出双重上采样模块,双重上采样模块结合双线性插值和像素重排,避免产生棋盘伪影

[0013]优选的,在
U

Net
中,跳跃连接是通过将编码器的特征图与解码器对应层的特征图
进行连接实现

[0014]优选的,构建数据集训练改进后的
SU

Net
网络时,训练模型时同时拥有包含伪影和其清晰对应物的文档

[0015]优选的,构建数据集训练改进后的
SU

Net
网络时,创建合成数据集,干净的真实文档来自
PubLayNet
数据集,数据集用于文档布局分析任务,具有多种文档结构

字体和字号,通过合成添加包括压缩错误

文字中的像素化错误和噪声构建包含伪影的对比图像

[0016]与现有技术相比,本专利技术的有益效果是:
[0017]本专利技术提出的基于改进的
Transformer
的文档伪影去除方法,通过
SU

Net
在引入多头交叉注意力模块,使得模型能够在解码器和编码器之间建立关联,并选择性地传递重要的上下文信息

这种设计允许模型更好地理解图像中的相关性,从而更有效地处理扫描文档中的关键信息

特别是在处理包含文本的图像时,模型能够专注于处理接近文本区域的伪影和错误,提高对重要信息的识别能力

此外,将编码器的信息传递到解码器的深层状态中,为模型提供了访问从编码器中提取的像素和特征的机会,进一步增强了模型的表达能力和性能

附图说明
[0018]图1为本专利技术
SU

Net
网络结构图;
[0019]图2为本专利技术引入交叉注意力连接的解码器示意图;
[0020]图3为本专利技术引入交叉注意力连接的
SU

Net
网络结构示意图

具体实施方式
[0021]为了使本专利技术的目的

技术方案进行清楚

完整地描述,及优点更加清楚明白,以下结合附图对本专利技术实施例进行进一步详细说明

应当理解,此处所描述的具体实施例是本专利技术一部分实施例,而不是全部的实施例,仅仅用以解释本专利技术实施例,并不用于限定本专利技术实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0022]请参阅图1至图3,本专利技术提供一种技术方案:一种基于改进的
Transformer
的文档伪影去除方法,所述方法包括如下步骤:
[0023]S1、...

【技术保护点】

【技术特征摘要】
1.
一种基于改进的
Transformer
的文档伪影去除方法,其特征在于:所述方法包括如下步骤:
S1、

U

Net
网络中引入
Swin Transformer
构成
SU

Net
网络;
S2、

SU

Net
网络中的跳跃连接替换为多头交叉注意力连接;
S3、
构建数据集训练改进后的
SU

Net
网络
。2.
根据权利要求1所述的一种基于改进的
Transformer
的文档伪影去除方法,其特征在于:在
U

Net
网络中引入
Swin Transformer
构成
SU

Net
网络的具体操作包括:在
SU

Net
中,使用3×3卷积来获得输入图像浅层特征,通过
U

Net
网络进行特征提取,将
Swin Transform Block
作为基本提取模块来替换
U

Net
中的普通卷积层并获取高级语义信息,使用3×3卷积来恢复重建的图
。3.
根据权利要求2所述的一种...

【专利技术属性】
技术研发人员:刘玉国段强宁方刚姜凯
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1