【技术实现步骤摘要】
基于并行迭代模仿解码的场景文字识别系统及方法
[0001]本专利技术涉及场景图像文本检测识别领域,具体涉及一种基于并行迭代模仿解码的场景文字识别系统及方法。
技术介绍
[0002]场景图像的文本检测与识别是近年来的研究热点,文字识别作为其中的关键技术受到越来越多的关注。其任务是将图片中的文字转录为计算机可以直接编辑的文字格式。现有的方法常采用非自回归解码或自回归解码两种方式,其中非自回归解码并行地预测所有字符,自回归解码常采用一种从左向右逐个字符的预测方式,两种解码方式在速度与准确率方面有各自的优势,但也各自存在一些不足:自回归解码按照从左向右地迭代预测文字,且迭代的次数依赖于目标文本的长度。尽管自回归解码的方式取得了令人满意的性能,但由于迭代次数的限制,推理速度较慢。非自回归解码在一个时间步内并行地预测出所有的结果。由于没有迭代预测地过程,非自回归解码有更快的推理速度,但忽略了不同预测之间的关系。由于条件独立的假设,非自回归的解码方式往往会遇到特征对齐和缺少字符上下文信息的问题。
[0003]现有已公开专利技术专利 ...
【技术保护点】
【技术特征摘要】
1.一种基于并行迭代模仿解码的场景文字识别系统,其特征在于,包括:骨干网络,用于提取场景图像的视觉特征,该骨干网络包括一个ResNet
‑
50网络、一个特征金字塔网络FPN和两个Transformer模块,其中FPN用于融合多尺度的视觉特征,Transformer模块由自注意力层和前馈神经网络FFN构成,用于捕捉上下文信息;并行解码器,基于Transformer的网络结构,包括自注意力层、二维注意力层和FFN,其中自注意力层的输入是上一次迭代预测结果经过自注意力层的嵌入层后的字符嵌入,该字符嵌入融合了位置编码的信息;该自注意力层为双向结构,用于提取字符间的上下文信息;该二维注意力层用于使用自注意力层的输出和骨干网络提取的视觉特征预测一组注意力权重,并得到相应加权后的视觉特征;FFN用于对二维注意力层的输出进行非线性变化,利用一个全连接层得到预测的概率分布;该并行解码器针对不同长度的文本采用固定的迭代次数,对场景图像的视觉特征进行文字预测,并在每次迭代中首先预测出置信度最高的位置;自回归解码器,采用基于Transformer的网络结构,包括自注意力层、二维注意力层和FFN,该自注意力层使用掩膜防止自回归解码器使用当前字符以后的字符信息;该自回归解码器与并行解码器共享骨干网络,并对并行解码器进行端对端训练,训练过程中自回归解码器为并行解码器提供监督信号,并将自身的知识迁移到并行解码器中,并行解码器对自回归解码器的FFN层进行模仿学习。2.如权利要求1所述的系统,其特征在于,并行解码器的二维自注意力层通过采用多头点积操作计算注意力权重。3.如权利要求1所述的系统,其特征在于,并行解码器在解码过程中,引入掩膜符号作为下一次迭代待预测的占位符,具体包括:在预测阶段,并行解码器预测出在当前迭代中是所述掩膜符号位置对应的字符概率;在更新阶段,将目标文本的一些位置更新...
【专利技术属性】
技术研发人员:王伟平,乔峙,周宇,王威,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。