System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本行识别方法、装置、设备、存储介质和产品制造方法及图纸_技高网

文本行识别方法、装置、设备、存储介质和产品制造方法及图纸

技术编号:41264587 阅读:5 留言:0更新日期:2024-05-11 09:21
本申请提出一种文本行识别方法、装置、设备、存储介质和产品,该方法包括:当扫描获取的待识别文本图像的长度大于设定长度阈值时,对获取的待识别文本图像进行文本行检测,得到文本行检测结果和单字符检测结果;所述单字符检测结果包括检测到的文本行中的单个字符所占据的图像区域;根据所述单字符检测结果,从所述文本行检测结果中分割出包括检测到的完整字符的待识别文本段;对所述待识别文本段进行文本识别,得到识别文本。上述方案能够实现“边扫边出”的文本图像扫描识别效果,并且具有较高的识别准确性和识别效率。

【技术实现步骤摘要】

本申请涉及图像识别,尤其涉及一种文本行识别方法、装置、设备、存储介质和产品


技术介绍

1、随着信息技术的不断发展,人们对智能化、自动化的需求越来越高。在办公、医疗、智能家居等领域中,人们需要快速准确地获取图像中的文字信息,以便进行后续处理和分析。

2、通过扫描设备对文本图像进行扫描识别是常见的从图像中获取文字信息的实现方式,而常规的扫描设备通常是在完成一定长度的扫描后,从扫描图像中识别文本行并对文本行进行文本识别。由于扫描过程的随机性,上述的扫描过程的识别效率和识别准确度较低,不能连续识别并且经常识别到不完整字符或者丢失字符。


技术实现思路

1、基于上述技术现状,本申请提出一种文本行识别方法、装置、设备、存储介质和产品,能够实现“边扫边出”的文本图像扫描识别效果,并且具有较高的识别准确性和识别效率。

2、为了达到上述技术目的,本申请具体提出如下技术方案:

3、本申请第一方面提出一种文本行识别方法,包括:

4、当扫描获取的待识别文本图像的长度大于设定长度阈值时,对获取的待识别文本图像进行文本行检测,得到文本行检测结果和单字符检测结果;所述单字符检测结果包括检测到的文本行中的单个字符所占据的图像区域;

5、根据所述单字符检测结果,从所述文本行检测结果中分割出包括检测到的完整字符的待识别文本段;

6、对所述待识别文本段进行文本识别,得到识别文本。

7、在一些实现方式中,根据所述单字符检测结果,从所述文本行检测结果中分割出包括检测到的完整字符的待识别文本段,包括:

8、根据所述单字符检测结果,将第一字符所占据的图像区域与第二字符所占据的图像区域之间的位置,确定为文本段切分位置;其中,所述第一字符包括所述文本行检测结果中的最后一个完整字符,所述第二字符为所述第一字符的下一个字符;

9、基于所述文本段切分位置,从所述文本行检测结果中分割出位于所述文本段切分位置之前的未识别的文本段,作为待识别文本段。

10、在一些实现方式中,对所述待识别文本段进行文本识别,得到识别文本,包括:

11、确定所述待识别文本段中的待识别文本行是否为直线形文本行;

12、在确定所述待识别文本行不是直线形文本行的情况下,基于所述单字符检测结果,从所述待识别文本行中分割出各个字符图像区域;

13、沿直线拼接分割得到的各个字符图像区域,得到拼接文本行图像,并对所述拼接文本行图像进行文本识别,得到识别文本。

14、在一些实现方式中,确定所述待识别文本段中的待识别文本行是否为直线形文本行,包括:

15、确定所述待识别文本段中的待识别文本行的最小外接矩形;

16、根据所述待识别文本行与所述最小外接矩形的面积比,确定所述待识别文本行是否为直线形文本行;

17、其中,在所述待识别文本行与所述最小外接矩形的面积比小于设定面积比阈值的情况下确定所述待识别文本行不是直线形文本行,在所述待识别文本行与所述最小外接矩形的面积比不小于设定面积比阈值的情况下确定所述待识别文本行是直线形文本行。

18、在一些实现方式中,对获取的待识别文本图像进行文本行检测,得到文本行检测结果和单字符检测结果,包括:

19、将获取的待识别文本图像输入预先训练的文本行检测模型,得到所述文本行检测模型输出的文本行检测结果和单字符检测结果;

20、其中,所述文本行检测模型包括主干网络以及第一任务网络和第二任务网络,所述主干网络用于提取所述待识别文本图像的图像特征,所述第一任务网络用于对所述图像特征进行处理得到文本行检测结果,所述第二任务网络用于对所述图像特征进行处理得到单字符检测结果。

21、在一些实现方式中,所述文本行检测模型的训练过程,包括:

22、将文本图像样本输入所述文本行检测模型,得到所述第一任务网络输出的第一文本行检测结果和所述第二任务网络输出的第一单字符检测结果;

23、利用所述第一文本行检测结果与所述文本图像样本对应的文本行检测标签,确定文本行检测损失,以及,利用所述第一单字符检测结果与所述文本图像样本对应的单字符检测标签,确定单字符检测损失;

24、至少以降低所述文本行检测损失和所述单字符检测损失为目标,对所述文本行检测模型的主干网络进行参数修正。

25、在一些实现方式中,在所述文本行检测模型的训练过程中,所述文本行检测模型还包括第三任务网络,所述第三任务网络对所述主干网络输出的图像特征进行处理得到文本行中心检测结果;

26、所述文本行检测模型的训练过程还包括:

27、利用所述文本行中心检测结果与所述文本图像样本对应的文本行中心检测标签,确定文本行中心检测损失;

28、所述至少以降低所述文本行检测损失和所述单字符检测损失为目标,对所述文本行检测模型的主干网络进行参数修正,包括:

29、计算所述文本行检测损失、所述单字符检测损失和所述文本行中心检测损失之和,得到融合损失;

30、以降低所述融合损失为目标,对所述文本行检测模型的主干网络进行参数修正。

31、本申请第二方面提出一种文本行识别装置,包括:

32、检测单元,用于当扫描获取的待识别文本图像的长度大于设定长度阈值时,对获取的待识别文本图像进行文本行检测,得到文本行检测结果和单字符检测结果;所述单字符检测结果包括检测到的文本行中的单个字符所占据的图像区域;

33、分割单元,用于根据所述单字符检测结果,从所述文本行检测结果中分割出包括检测到的完整字符的待识别文本段;

34、识别单元,用于对所述待识别文本段进行文本识别,得到识别文本。

35、本申请第三方面提出一种扫描设备,包括:

36、扫描组件,用于扫描获取待识别文本图像;

37、第一处理器,用于获取所述扫描组件扫描获取的待识别文本图像,当获取的待识别文本图像的长度大于设定长度阈值时,对获取的待识别文本图像进行文本行检测,得到文本行检测结果和单字符检测结果;所述单字符检测结果包括检测到的文本行中的单个字符所占据的图像区域;根据所述单字符检测结果,从所述文本行检测结果中分割出包括检测到的完整字符的待识别文本段;对所述待识别文本段进行文本识别,得到识别文本。

38、本申请第四方面提出一种电子设备,包括存储器和第二处理器;

39、所述存储器与所述第二处理器连接,用于存储程序;

40、所述第二处理器用于通过运行所述存储器中的程序,实现第一方面以及第一方面的任意一种实现方式所述的文本行识别方法。

41、本申请第五方面提出一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现第一方面以及第一方面的任意一种实现方式所述的文本行识别方法。

42、本申请第六方面提出一种计算机程序产本文档来自技高网...

【技术保护点】

1.一种文本行识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述单字符检测结果,从所述文本行检测结果中分割出包括检测到的完整字符的待识别文本段,包括:

3.根据权利要求1所述的方法,其特征在于,对所述待识别文本段进行文本识别,得到识别文本,包括:

4.根据权利要求3所述的方法,其特征在于,确定所述待识别文本段中的待识别文本行是否为直线形文本行,包括:

5.根据权利要求1至4中任意一项所述的方法,其特征在于,对获取的待识别文本图像进行文本行检测,得到文本行检测结果和单字符检测结果,包括:

6.根据权利要求5所述的方法,其特征在于,所述文本行检测模型的训练过程,包括:

7.根据权利要求6所述的方法,其特征在于,在所述文本行检测模型的训练过程中,所述文本行检测模型还包括第三任务网络,所述第三任务网络对所述主干网络输出的图像特征进行处理得到文本行中心检测结果;

8.一种文本行识别装置,其特征在于,包括:

9.一种扫描设备,其特征在于,包括:

10.一种电子设备,其特征在于,包括存储器和第二处理器;

11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至7中任意一项所述的文本行识别方法。

12.一种计算机程序产品,其特征在于,包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器实现如权利要求1至7中任意一项所述的文本行识别方法。

...

【技术特征摘要】

1.一种文本行识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述单字符检测结果,从所述文本行检测结果中分割出包括检测到的完整字符的待识别文本段,包括:

3.根据权利要求1所述的方法,其特征在于,对所述待识别文本段进行文本识别,得到识别文本,包括:

4.根据权利要求3所述的方法,其特征在于,确定所述待识别文本段中的待识别文本行是否为直线形文本行,包括:

5.根据权利要求1至4中任意一项所述的方法,其特征在于,对获取的待识别文本图像进行文本行检测,得到文本行检测结果和单字符检测结果,包括:

6.根据权利要求5所述的方法,其特征在于,所述文本行检测模型的训练过程,包括:

7.根据权利...

【专利技术属性】
技术研发人员:李波陈明军谢名亮殷保才殷兵
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1