一种基于长度预测的自适应文本识别方法和装置制造方法及图纸

技术编号：40600523 阅读：5 留言：0更新日期：2024-03-12 22:04

本发明专利技术涉及图像文本识别技术领域，特别是涉及一种基于长度预测的自适应文本识别方法和装置，包括：获取文本识别图像，并对文本识别图像进行预处理，以得到待测图像；构建特征提取模块，将待测图像输入所述特征提取模块，以得到待测图像的视觉特征和序列特征；构建第一网络和第二网络，将所述视觉特征送入所述第一网络以得到分割图，并将所述视觉特征送入所述第二网络以得到预测文本长度；构建解码模块，将所述序列特征、分割图以及预测文本长度输入所述解码模块，所述解码模块根据所述分割图以及序列特征进行循环解码，得到解码字符，并根据所述预测文本长度以及解码字符输出文本识别结果，提升了在复杂场景下图像文本的识别精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像文本识别，特别是涉及一种基于长度预测的自适应文本识别方法和装置。

技术介绍

1、图像文本识别作为一项重要的计算机视觉技术，在图像搜索、图像语义理解、交通标志识别、网络信息监管等领域发挥着重要作用。随着深度学习技术的发展，光学字符识别技术日趋成熟，对于背景相对单一，文字字体、文本行排列规范的图像文本识别已经达到了很高的准确率，但是对于强背景干扰的复杂场景文本识别，其准确率仍然不够理想。

2、鉴于此，克服该现有技术所存在的缺陷是本
亟待解决的问题。

技术实现思路

1、本专利技术要解决的技术问题是：如何提升在强干扰背景的场景下对于图像文本的识别精度。

2、本专利技术采用如下技术方案：

3、第一方面，提供了一种基于长度预测的自适应文本识别方法，包括：

4、获取文本识别图像，并对所述文本识别图像进行预处理，以得到待测图像；

5、构建特征提取模块，将所述待测图像输入所述特征提取模块，以得到所述待测图像的视觉特征和序列特征；

6、构建第一网络和第二网络，将所述视觉特征送入所述第一网络以得到分割图，并将所述视觉特征送入所述第二网络以得到预测文本长度；

7、构建解码模块，将所述序列特征、分割图以及预测文本长度输入所述解码模块，所述解码模块根据所述分割图以及序列特征进行循环解码，得到解码字符，并根据所述预测文本长度以及解码字符输出文本识别结果。

8、优选的，所述获取文本识别图像，并对

9、获取文本识别图像后，对所述文本识别图像进行预处理，以提高文本识别的准确性，所述预处理包括对文本识别图像的缩放以及归一化到预设尺寸。

10、优选的，所述构建特征提取模块，将所述待测图像输入所述特征提取模块，以得到所述待测图像的视觉特征和序列特征包括：

11、构建包括第一模型以及第二模型的特征提取模块；

12、将所述待测图像输入至所述第一模型，所述第一模型获取到所述待测图像中的视觉信息，以得到所述待测图像中的视觉特征；

13、将所述视觉特征输入所述第二模型中，所述第二模型将所述视觉特征转换为序列特征。

14、优选的，所述构建第一网络和第二网络，将所述视觉特征送入所述第一网络以得到分割图，并将所述视觉特征送入所述第二网络以得到预测文本长度包括：

15、将所述视觉特征输入到所述第一网络中，通过所述第一网络的前向传播，为所述待测图像的每个像素点分配分割标签，以得到所述分割图；

16、将所述视觉特征输入到所述第二网络中，通过所述第二网络的前向传播，得到所述待测图像中文本的预测文本长度。

17、优选的，所述构建解码模块，将所述序列特征、分割图以及预测文本长度输入所述解码模块，所述解码模块根据所述分割图以及序列特征进行循环解码，得到解码字符包括：

18、构建包括第三模型和第四模型的解码模块；

19、将所述序列特征以及所述分割图输入所述第三模型，通过所述第三模型学习出所述序列特征中的上下文关系；

20、所述第四模型根据所述序列特征中的上下文关系对所述序列特征进行循环解码，以得到所述解码字符。

21、优选的，所述将所述序列特征以及所述分割图输入所述第三模型，通过所述第三模型学习出所述序列特征中的上下文关系包括：

22、将所述分割图拼接到所述第三模型的输入特征图中，以使所述第三模型聚焦于不同区域所对应的序列特征，以理解出所述序列特征中的上下文关系。

23、优选的，所述第四模型根据所述序列特征中的上下文关系对所述序列特征进行循环解码，以得到所述解码字符包括：

24、所述第四模型接收所述第三模型每一层的输出，并通过循环解码的方式逐步生成解码字符；

25、在解码过程中，所述第四模型利用从所述序列特征中学习到的上下文关系来指导字符的生成，以使在每一步解码时考虑到所述待测图像中不同区域之间的关系。

26、优选的，所述根据所述预测文本长度以及解码字符输出文本识别结果包括：

27、为所述第四模型设置解码的起始字符以及终止字符；

28、当所述第四模型的解码过程处于第一次解码时，将所述起始字符输入到所述第四模型中，以生成第一个解码字符；

29、当所述第四模型的解码过程不处于第一次解码时，则按顺序输入前次解码到第一次解码过程之间生成的所有解码字符，以得到本次解码的解码字符；

30、判断已生成的解码字符的长度是否超过所述预测文本长度，并判断最后一次解码生成的解码字符是否为所述终止字符；

31、当已生成的字符长度不超过所述预测文本长度，且最后一次解码生成的解码字符不为所述终止字符时，则进行下一次的解码；

32、当已生成的字符长度超过所述预测文本长度和/或最后一次解码生成的解码字符为所述终止字符时，输出所述文本识别结果。

33、优选的，对所述特征提取模块、第一网络、第二网络以及解码模块的训练过程分为三个阶段，包括第一阶段、第二阶段和第三阶段；

34、其中，所述第一阶段为单独训练所述第二网络，所述第二阶段为预训练所述第一网络，所述第三阶段为将经过预训练得到的所述第一网络连接到所述特征提取模块和解码模块中进行联合训练。

35、第二方面，提供了一种基于长度预测的自适应文本识别装置，所述基于长度预测的自适应文本识别装置包括：处理器和用于存储处理器可执行指令的存储器；

36、其中，所述处理器被配置为执行所述基于长度预测的自适应文本识别方法。

37、与现有技术相比，本专利技术的有益效果在于：

38、本专利技术通过获取文本识别图像，并对所述文本识别图像进行预处理，以得到待测图像；构建特征提取模块，将所述待测图像输入所述特征提取模块，以得到所述待测图像的视觉特征和序列特征；构建第一网络和第二网络，将所述视觉特征送入所述第一网络以得到分割图，并将所述视觉特征送入所述第二网络以得到预测文本长度；构建解码模块，将所述分割图、序列特征以及预测文本长度输入所述解码模块，所述解码模块根据所述分割图以及序列特征进行循环解码，得到解码字符，并根据所述预测文本长度以及解码字符输出文本识别结果。通过所述特征提取模块提取文本识别图像特征，同时级联第一网络减少强干扰背景对于文本识别的干扰，并且通过第二网络预测文本长度，最后利用预测结果和解码模块输出自适应的文本识别结果，提升了在复杂场景下图像文本的识别精度。

本文档来自技高网...

【技术保护点】

1.一种基于长度预测的自适应文本识别方法，其特征在于，包括：

2.根据权利要求1所述的基于长度预测的自适应文本识别方法，其特征在于，所述获取文本识别图像，并对所述文本识别图像进行预处理，以得到待测图像包括：

3.根据权利要求1所述的基于长度预测的自适应文本识别方法，其特征在于，所述构建特征提取模块，将所述待测图像输入所述特征提取模块，以得到所述待测图像的视觉特征和序列特征包括：

4.根据权利要求1所述的基于长度预测的自适应文本识别方法，其特征在于，所述构建第一网络和第二网络，将所述视觉特征送入所述第一网络以得到分割图，并将所述视觉特征送入所述第二网络以得到预测文本长度包括：

5.根据权利要求1所述的基于长度预测的自适应文本识别方法，其特征在于，所述构建解码模块，将所述序列特征、分割图以及预测文本长度输入所述解码模块，所述解码模块根据所述分割图以及序列特征进行循环解码，得到解码字符包括：

6.根据权利要求5所述的基于长度预测的自适应文本识别方法，其特征在于，所述将所述序列特征以及所述分割图输入所述第三模型，通过所述第三模型

7.根据权利要求5所述的基于长度预测的自适应文本识别方法，其特征在于，所述第四模型根据所述序列特征中的上下文关系对所述序列特征进行循环解码，以得到所述解码字符包括：

8.根据权利要求5所述的基于长度预测的自适应文本识别方法，其特征在于，所述根据所述预测文本长度以及解码字符输出文本识别结果包括：

9.根据权利要求1-8任一项所述的基于长度预测的自适应文本识别方法，其特征在于，对所述特征提取模块、第一网络、第二网络以及解码模块的训练过程分为三个阶段，包括第一阶段、第二阶段和第三阶段；

10.一种基于长度预测的自适应文本识别装置，其特征在于，所述基于长度预测的自适应文本识别装置包括：处理器和用于存储处理器可执行指令的存储器；

...

【技术特征摘要】

1.一种基于长度预测的自适应文本识别方法，其特征在于，包括：

<...

【专利技术属性】
技术研发人员：刘建云，任文凯，黄兆年，
申请(专利权)人：中国船舶集团有限公司第七〇九研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人