System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本识别方法、装置、电子设备及存储介质制造方法及图纸_技高网

文本识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40436812 阅读:7 留言:0更新日期:2024-02-22 23:01
本申请提出一种文本识别方法、装置、电子设备及存储介质,该方法包括:对待识别文本图像进行视觉特征提取,并对提取的视觉特征进行非自回归序列解码得到初始识别文本;对初始识别文本进行基于上下文的文本特征提取处理,得到初始识别文本的文本特征;对视觉特征和文本特征进行对齐融合处理,得到融合特征,并对融合特征进行非自回归序列解码,得到待识别数据对应的识别文本。采用本方案,对融合特征进行非自回归序列解码,并且融合特征是由视觉特征和包含上下文信息的文本特征融合得到的,提高了解码特征的特征量和特征丰富程度,通过融合特征捕获了不同文本特征之间的关联性,从而提高了解码过程中各个字符之间的关联性,能够提高解码准确度。

【技术实现步骤摘要】

本申请涉及序列识别,尤其涉及一种文本识别方法、装置、电子设备及存储介质


技术介绍

1、序列解码任务在文本识别过程中尤为重要,现有的序列解码方式包括自回归序列解码和非自回归序列解码。其中,自回归序列解码是通过从左到右逐步解码出所有字符,这种解码方式符合人类的阅读习惯,但是每一步解码都需要依赖于上一步解码结果,以致于逐步解码的方式耗时较长,影响解码效率,尤其是对于算力有限的设备。非自回归序列解码是通过并行的方式同时解码出所有字符,能够提高解码效率,但是解码时每个字符之间是条件独立的,以致于解码准确度较低。

2、因此,文本识别过程中,如何在保证序列解码效率的情况下,提高解码准确度是本领域技术人员亟需解决的技术问题。


技术实现思路

1、基于上述需求,本申请提出一种文本识别方法、装置、电子设备及存储介质,能够在保证序列解码效率的情况下,提高解码准确度。

2、为实现上述目的,本申请提出如下技术方案:

3、根据本申请实施例的第一方面,提供了一种文本识别方法,包括:

4、对待识别文本图像进行视觉特征提取,并对提取的视觉特征进行非自回归序列解码得到初始识别文本;

5、对所述初始识别文本进行基于上下文的文本特征提取处理,得到所述初始识别文本的文本特征;

6、对所述视觉特征和所述文本特征进行对齐融合处理,得到融合特征,并对所述融合特征进行非自回归序列解码,得到所述待识别数据对应的识别文本。

7、可选的,对所述初始识别文本进行基于上下文的文本特征提取处理,得到所述初始识别文本的文本特征,包括:

8、将所述初始识别文本中的文本元素的特征信息,与其他文本元素的特征信息相融合,得到与该文本元素对应的第一文本特征;

9、将所述初始识别文本中的所有文本元素对应的第一文本特征组合成特征序列,得到所述初始识别文本的文本特征。

10、可选的,将所述初始识别文本中的文本元素的特征信息,与其他文本元素的特征信息相融合,得到与该文本元素对应的第一文本特征,将所述初始识别文本中的所有文本元素对应的第一文本特征组合成特征序列,得到所述初始识别文本的文本特征,包括:

11、将所述初始识别文本序列输入到预先构建的语言模型中,所述语言模型将所述初始识别文本中的文本元素的特征信息,与其他文本元素的特征信息相融合,得到与该文本元素对应的第一文本特征,将所述初始识别文本中的所有文本元素对应的第一文本特征组合成特征序列,得到并输出所述初始识别文本的文本特征;

12、其中,所述语言模型采用具有上下文交互功能的神经网络。

13、可选的,对所述视觉特征和所述文本特征进行对齐融合处理,得到融合特征,包括:

14、将所述文本特征与所述视觉特征进行特征元素对齐处理,得到与所述视觉特征对齐的对齐文本特征;

15、将所述视觉特征和所述对齐文本特征融合,得到融合特征。

16、可选的,将所述文本特征与所述视觉特征进行特征元素对齐处理,得到与所述视觉特征对齐的对齐文本特征,包括:

17、将视觉特征元素作为查询条件,从所述文本特征的特征元素中确定出与视觉特征元素对应的文本特征元素;

18、基于文本特征元素与视觉特征元素的对应关系,确定与所述视觉特征对齐的对齐文本特征。

19、可选的,将视觉特征元素作为查询条件,从所述文本特征的特征元素中确定出与视觉特征元素对应的文本特征元素,包括:

20、对所述视觉特征的视觉特征元素进行第一线性变换,得到查询特征矩阵;

21、对所述文本特征的文本特征元素分别进行第二线性变换和第三线性变换,得到键特征矩阵和值特征矩阵;

22、对所述查询特征矩阵、所述键特征矩阵和所述值特征矩阵,进行基于交叉注意力机制的对齐操作,确定与各个视觉特征元素对应的文本特征元素。

23、可选的,将所述视觉特征和所述对齐文本特征融合,得到融合特征,包括:

24、将所述视觉特征和所述对齐文本特征按通道进行拼接,得到拼接特征;

25、基于门控机制,对所述拼接特征进行特征融合操作,得到融合特征。

26、根据本申请实施例的第二方面,提供了一种文本识别装置,包括:

27、视觉特征处理模块,用于对待识别文本图像进行视觉特征提取,并对提取的视觉特征进行非自回归序列解码得到初始识别文本;

28、文本特征确定模块,用于对所述初始识别文本进行基于上下文的文本特征提取处理,得到所述初始识别文本的文本特征;

29、融合解码模块,用于对所述视觉特征和所述文本特征进行对齐融合处理,得到融合特征,并对所述融合特征进行非自回归序列解码,得到所述待识别数据对应的识别文本。

30、根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器和处理器;

31、所述存储器与所述处理器连接,用于存储程序;

32、所述处理器,用于通过运行所述存储器中的程序,实现上述文本识别方法。

33、根据本申请实施例的第四方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述文本识别方法。

34、本申请提出的文本识别方法,对待识别文本图像进行视觉特征提取,并对提取的视觉特征进行非自回归序列解码得到初始识别文本;对初始识别文本进行基于上下文的文本特征提取处理,得到初始识别文本的文本特征;对视觉特征和文本特征进行对齐融合处理,得到融合特征,并对融合特征进行非自回归序列解码,得到待识别数据对应的识别文本。采用本申请的技术方案,对融合特征进行非自回归序列解码,并且融合特征是由视觉特征和包含上下文信息的文本特征融合得到的,提高了解码特征的特征量和特征丰富程度,通过融合特征捕获了不同文本特征之间的关联性,从而提高了解码过程中各个字符之间的关联性,能够提高解码准确度。

本文档来自技高网...

【技术保护点】

1.一种文本识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述初始识别文本进行基于上下文的文本特征提取处理,得到所述初始识别文本的文本特征,包括:

3.根据权利要求2所述的方法,其特征在于,将所述初始识别文本中的文本元素的特征信息,与其他文本元素的特征信息相融合,得到与该文本元素对应的第一文本特征,将所述初始识别文本中的所有文本元素对应的第一文本特征组合成特征序列,得到所述初始识别文本的文本特征,包括:

4.根据权利要求1所述的方法,其特征在于,对所述视觉特征和所述文本特征进行对齐融合处理,得到融合特征,包括:

5.根据权利要求4所述的方法,其特征在于,将所述文本特征与所述视觉特征进行特征元素对齐处理,得到与所述视觉特征对齐的对齐文本特征,包括:

6.根据权利要求5所述的方法,其特征在于,将视觉特征元素作为查询条件,从所述文本特征的特征元素中确定出与视觉特征元素对应的文本特征元素,包括:

7.根据权利要求4所述的方法,其特征在于,将所述视觉特征和所述对齐文本特征融合,得到融合特征,包括:

8.一种文本识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:存储器和处理器;

10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至7中任意一项所述的文本识别方法。

...

【技术特征摘要】

1.一种文本识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述初始识别文本进行基于上下文的文本特征提取处理,得到所述初始识别文本的文本特征,包括:

3.根据权利要求2所述的方法,其特征在于,将所述初始识别文本中的文本元素的特征信息,与其他文本元素的特征信息相融合,得到与该文本元素对应的第一文本特征,将所述初始识别文本中的所有文本元素对应的第一文本特征组合成特征序列,得到所述初始识别文本的文本特征,包括:

4.根据权利要求1所述的方法,其特征在于,对所述视觉特征和所述文本特征进行对齐融合处理,得到融合特征,包括:

5.根据权利要求4所述的方法,其特征在于,将所...

【专利技术属性】
技术研发人员:刘辰宇晏黔东殷保才胡金水殷兵潘嘉谢名亮
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1