利用单个标记解码的文本识别方法、系统、设备及介质技术方案

技术编号：41075112 阅读：11 留言：0更新日期：2024-04-24 11:32

本发明专利技术公开了一种利用单个标记解码的文本识别方法、系统、设备及介质，它们是一一对应的方案，方案中：在语义特征提取阶段，可以从图像中提取和压缩关键语义特征的有效性，同时过滤掉噪声或不相关的细节；并且设计了一种新颖的向量到序列范式，从全局语义特征中解码出字符预测（即文本识别结果），与传统方法在二维空间框架内分析特征不同，本发明专利技术使用全局语义特征，并在通道维度上解码字符信息，此外，将引入了序列语言建模。得益于上述改进，本发明专利技术显著提升了模型的场景文本识别性能，在多个数据集上达到了先进水平，特别是在弯曲文本、多方向文本和艺术字上提升尤为显著。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本识别，尤其涉及一种利用单个标记解码的文本识别方法、系统、设备及介质。

技术介绍

1、文本识别是计算机视觉和自然语言处理领域的交叉任务，旨在识别图像中的文字内容，并将其转化为计算机可读取文本。该任务广泛应用在文档数字化，信息提取，自动驾驶等场景。

2、在当前的深度学习方法中，场景文本识别通常被视为一个序列标记问题。这些基于序列方法的处理流程一般采用图像到序列的编码器来提取视觉特征序列，随后通过序列到序列的解码器将其解码成文本序列。这些解码器通常有两种实现形式：基于注意力的方法和基于ctc（connectionist temporal classification，联结主义时间分类）的方法。具体来说，基于注意力的解码器利用交叉注意力机制，在预测不同字符时关注视觉特征序列的不同部分。例如，在识别单词“kevin”时，解码器会通过主动查询特定的视觉特征，依次识别每个字符——k、e、v、i、n。然而，这类方法的效果严重依赖于注意力图的准确性，复杂场景下的注意力偏移或者注意漂移可能会严重影响性能，导致准确率大幅下降。相比之下，基于ctc的方法通常为每个预期字符分配一个唯一的输出标记，并引入特殊的空白标签来缓解对齐问题。但是，这种方法经常需要大量的后处理来处理空白和重复字符，在复杂场景中处理起来颇具挑战。

3、有鉴于此，特提出本专利技术。

技术实现思路

1、本专利技术的目的是提供一种利用单个标记解码的文本识别方法、系统、设备及介质，可以显著提升场景文本识

2、本专利技术的目的是通过以下技术方案实现的：

3、一种利用单个标记解码的文本识别方法，包括：

4、步骤1、对输入图像进行多粒度语义特征的提取，并将多粒度语义特征聚合为单个全局语义标记，形成全局语义特征；

5、步骤2、基于通道级并行注意力机制对全局语义特征进行增强处理，并通过建模语言规则，预测出文本识别结果。

6、一种利用单个标记解码的文本识别系统，系统包括：文本识别器，通过所述文本识别器实现文本识别；

7、所述文本识别器包括：

8、图像到向量编码器，用于对输入图像进行多粒度语义特征的提取，并将多粒度语义特征聚合为单个全局语义标记，形成全局语义特征；

9、向量到序列解码器，用于基于通道级并行注意力机制对全局语义特征进行增强处理，并通过建模语言规则，预测出文本识别结果。

10、一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

11、其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

12、一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

13、由上述本专利技术提供的技术方案可以看出，在语义特征提取阶段，可以从图像中提取和压缩关键语义特征的有效性，同时过滤掉噪声或不相关的细节；并且设计了一种新颖的向量到序列范式，从全局语义特征中解码出字符预测（即文本识别结果），与传统方法在二维空间框架内分析特征不同，本专利技术使用全局语义特征，并在通道维度上解码字符信息，此外，将引入了序列语言建模。得益于上述改进，本专利技术显著提升了模型的场景文本识别性能，在多个数据集上达到了先进水平。

本文档来自技高网...

【技术保护点】

1.一种利用单个标记解码的文本识别方法，其特征在于，包括：

2.根据权利要求1所述的一种利用单个标记解码的文本识别方法，其特征在于，所述对输入图像进行多粒度语义特征的提取，并将多粒度语义特征聚合为单个全局语义标记，形成全局语义特征包括：

3.根据权利要求1所述的一种利用单个标记解码的文本识别方法，其特征在于，所述结合全局语义特征与给定的位置编码获得增强特征，再利用通道级并行注意力机制结合增强特征生成通道注意力图，并与增强特征融合，获得经过通道级并行注意力层增强后特征包括：

4.根据权利要求1所述的一种利用单个标记解码的文本识别方法，其特征在于，利用已预测的文本序列，获得融合特征表示为：

5.根据权利要求1或3或4所述的一种利用单个标记解码的文本识别方法，其特征在于，所述通过建模语言规则，预测出文本识别结果包括：

6.根据权利要求5所述的一种利用单个标记解码的文本识别方法，其特征在于，通过掩码多头注意力机制捕获解码特征中字符之间的语义依赖性表示为：

7.根据权利要求1所述的一种利用单个标记解码的文本识别方法，

8.一种利用单个标记解码的文本识别系统，其特征在于，系统包括：文本识别器，通过所述文本识别器实现文本识别；

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。

...

【技术特征摘要】

1.一种利用单个标记解码的文本识别方法，其特征在于，包括：

4.根据权利要求1所述的一种利用单个标记解码的文本识别方法，其特征在于，利用已预测的文本序列，获得融合特征表示为：

5.根据权利要求1或3或4所述的一种利用单个标记解码的文本识别方法，其特征在于，所述通过建模语言规则，预测出文本...

【专利技术属性】
技术研发人员：谢洪涛，徐建军，张勇东，王裕鑫，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人