一种场景文本识别方法、装置、芯片及终端制造方法及图纸

技术编号：40077911 阅读：5 留言：0更新日期：2024-01-17 01:51

本发明专利技术实施例公开了一种场景文本识别方法、装置、芯片及终端，通过改进的场景文本检测模型检测原始场景图像，获得检测结果图像；将检测结果图像输入全局校正模块进行校正，获得第一校正图像，并获取其高度信息、宽度信息和通道数信息；将这些信息和第一校正图像输入局部校正模块，获得偏移网格；根据偏移网格和全局校正模块处理检测结果图像，获得第二校正图像；对第二校正图像进行特征提取，并对提取的特征进行序列建模，获得第一特征序列，进一步获得原始场景图像中的文本内容。该方法以多级渐进式纠正机制来纠正检测结果图像中的缺陷，使得识别过程专注于原始场景图像中包括文本内容的区域，进而提高场景文本识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，特别是涉及一种场景文本识别方法、装置、芯片及存储介质。

技术介绍

1、在自然场景中识别文本，也称为场景文本识别。场景文本识别方法主要划分为场景文本检测、文本识别和端到端的文本识别三个步骤。目前常用的场景文本识别方法，因为尺度较小的场景文本在场景文本检测中容易被遗漏，而现有的校正方法，并不能完全解决文字变形及相似背景的干扰的问题。

技术实现思路

1、基于此，本专利技术提供一种场景文本识别方法、装置、芯片及存储介质，可以减少文字变形及相似背景对识别结果的干扰，使识别专注于原始场景图像中包括文本内容的区域，提高场景文本识别的准确率。

2、第一方面，提供一种场景文本识别方法，包括：

3、通过改进的场景文本检测模型检测原始场景图像，获得检测结果图像；所述检测结果图像包括在所述原始场景图像的基础上标记出文本实例的边界区域；

4、将所述检测结果图像输入全局校正模块进行校正，获得第一校正图像；

5、获取所述第一校正图像的高度信息、宽度信息和通道数信息；

6、将所述高度信息、宽度信息和通道数信息和所述第一校正图像输入局部校正模块，以预测第一校正图像的每个像素的偏移，并获得偏移网格；其中，所述偏移网格通过五个卷积层回归每个像素的偏移值；

7、根据所述偏移网格和所述全局校正模块处理所述检测结果图像，获得第二校正图像；

8、对所述第二校正图像进行特征提取，并对提取的特征进行序列建模，获得第一特征序列；

9、基于所述第一特征序列，获得所述原始场景图像中的文本内容。

10、可选地，根据所述偏移网格和所述全局校正模块处理所述检测结果图像，获得第二校正图像，包括：

11、根据所述偏移网格和基于所述全局校正模块得到的全局采样网格构建总采样网格；

12、通过所述总采样网格对所述检测结果图像进行采样得到第二校正图像。

13、可选地，所述全局校正模块至少由多目标校正网络模型与几何校正网络模型的组合得到。

14、可选地，全局校正模块包括在第一顺序的多目标校正网络模型与在第二顺序的几何校正网络模型的组合，和/或在第一顺序的几何校正网络模型与在第二顺序的多目标校正网络模型的组合。

15、可选地，通过细化校正模块处理所述第一特征序列，获得第二特征序列，包括：

16、将第一特征序列的每一列表示为其中，cf表示对第二校正图像进行特征提取后得到的特征图像的通道数信息，hf表示对第二校正图像进行特征提取后得到的特征图像的高度信息，fi表示第一特征序列，i表示第i列；

17、对第一特征序列的每一列进行计算，获得第二特征序列的每一列，计算公式为：

18、

19、其中，f'i表示第二特征序列，i表示第i列，fi,k表示第一特征序列第i列中的第k个向量；βi表示第一特征序列fi的注意力掩码，βi＝{βi,1，βi,2，....，βi,hf}；βi中的每个注意力值βi,j的计算公式为：

20、

21、其中，vi表示fi的评价分数，vi＝{vi,1，vi,2，…，vi,hf}，j＝1,2,3,...,hf；第二特征序列为：

22、可选地，通过三个卷积层来生成基于第一特征序列的评价分数，且三个卷积层后均包括一个批量归一化层和一个relu层；所述五个卷积层后均包括一个批量归一化层和一个relu层。

23、可选地，基于所述第一特征序列列，获得所述原始场景图像中的文本内容包括：

24、通过细化校正模块处理所述第一特征序列，获得第二特征序列；

25、将所述第二特征序列转换为字符序列，获得所述原始场景图像中的文本内容。

26、第二方面，本申请还提供了一种场景文本识别装置，该装置包括：

27、文本检测模块，用于通过改进的场景文本检测模型检测原始场景图像，获得检测结果图像；所述检测结果图像包括在所述原始场景图像的基础上标记出文本实例的边界区域；

28、第一校正模块，用于将所述检测结果图像输入全局校正模块进行校正，获得第一校正图像；

29、图像信息获取模块，用于获取所述第一校正图像的高度信息、宽度信息和通道数信息；

30、偏移网格获取模块，用于将所述高度信息、宽度信息和通道数信息和所述第一校正图像输入局部校正模块，以预测第一校正图像的每个像素的偏移，并获得偏移网格；其中，所述偏移网格通过五个卷积层回归每个像素的偏移值；

31、第二校正模块，用于根据所述偏移网格和所述全局校正模块处理所述检测结果图像，获得第二校正图像；

32、特征序列编码模块，用于对所述第二校正图像进行特征提取，并对提取的特征进行序列建模，获得第一特征序列；

33、特征序列处理模块，用于通过细化校正模块处理所述第一特征序列，获得第二特征序列；其中，所述细化校正模块基于所述第一特征序列生成突出显示的特征，并基于所述突出显示的特征输出第二特征序列；

34、解码识别模块，用于将所述第二特征序列转换为字符序列，获得所述原始场景图像中的文本内容。

35、第三方面，提供一种芯片，包括第一处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如权利要求1至7任一项所述的场景文本识别的各个步骤。

36、第四方面，提供一种终端，包括存储器、第二处理器以及存储在所述存储器中并可在所述第二处理器上运行的计算机程序，第二处理器执行所述计算机程序时实现如上介绍的场景文本识别方法的各个步骤。

37、上述场景文本识别方法、装置、芯片及存储介质，基于改进的场景文本检测模型，增强对尺度较小的文本内容的识别率，获得检测结果图像，然后以多级渐进式纠正机制来纠正检测结果图像中的缺陷。其中，多级渐进式纠正机制包括针对文字形变、文本弯曲等缺陷的矫正，以及抑制相似背景对文本识别的干扰。对于文字形变、文本弯曲等缺陷的矫正，本专利技术实施例以偏移网格和全局采样网格对检测结果图像进行校正，获得第一校正图像，从而使得识别过程专注于原始场景图像中包括文本内容的区域，进而提高场景文本识别的准确率。

本文档来自技高网...

【技术保护点】

1.一种场景文本识别方法，其特征在于，包括：

2.如权利要求1所述的场景文本识别方法，其特征在于，所述根据所述偏移网格和所述全局校正模块处理所述检测结果图像，获得第二校正图像，包括：

3.如权利要求1所述的场景文本识别方法，其特征在于，所述所述全局校正模块至少由多目标校正网络模型与几何校正网络模型的组合得到。

4.如权利要求3所述的场景文本识别方法，其特征在于，所述全局校正模块包括在第一顺序的多目标校正网络模型与在第二顺序的几何校正网络模型的组合，和/或在第一顺序的几何校正网络模型与在第二顺序的多目标校正网络模型的组合。

5.如权利要求1至4任意一项所述的场景文本识别方法，其特征在于，所述通过细化校正模块处理所述第一特征序列，获得第二特征序列，包括：

6.如权利要求5所述的场景文本识别方法，其特征在于，通过三个卷积层来生成基于第一特征序列的评价分数，且三个卷积层后均包括一个批量归一化层和一个ReLU层；所述五个卷积层后均包括一个批量归一化层和一个ReLU层。

7.如权利要求1至4任意一项所述的场景文本识别方法

8.一种场景文本识别装置，其特征在于，包括：

9.一种芯片，其特征在于，包括：第一处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如权利要求1至7任一项所述的场景文本识别方法的各个步骤。

10.一种终端，其特征在于，包括存储器、第二处理器以及存储在所述存储器中并可在所述第二处理器上运行的计算机程序，其特征在于，所述第二处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的场景文本识别方法的步骤。

...

【技术特征摘要】

1.一种场景文本识别方法，其特征在于，包括：

2.如权利要求1所述的场景文本识别方法，其特征在于，所述根据所述偏移网格和所述全局校正模块处理所述检测结果图像，获得第二校正图像，包括：

3.如权利要求1所述的场景文本识别方法，其特征在于，所述所述全局校正模块至少由多目标校正网络模型与几何校正网络模型的组合得到。

5.如权利要求1至4任意一项所述的场景文本识别方法，其特征在于，所述通过细化校正模块处理所述第一特征序列，获得第二特征序列，包括：

6.如权利要求5所述的场景文本识别方法，其特征在于...

【专利技术属性】
技术研发人员：柯武生，翁国权，
申请(专利权)人：山东睿芯半导体科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人