System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本处理方法及装置制造方法及图纸_技高网

一种文本处理方法及装置制造方法及图纸

技术编号:41417942 阅读:7 留言:0更新日期:2024-05-21 20:51
本申请的实施例提供一种文本处理方法及装置,涉及计算机视觉技术领域,能够降低了用户的阅读障碍,提高用户满意度。该方法包括:获取待识别图像;确定待识别图像对应的文本类型和文本信息,文本类型包括文档文本、截图文本或第一文本;文本信息包括待识别图像对应的识别文本、识别文本对应的多个文本框、多个文本框的坐标信息、识别文本对应的多个段落框以及多个段落框的坐标信息;基于多个文本框的坐标信息和多个段落框的坐标信息,确定待识别图像对应的多个分块数据;确定多个分块数据的属性信息;基于属性信息和文本类型,确定多个分块数据的排版信息,并将识别文本按照多个分块数据的排版信息展示。

【技术实现步骤摘要】

本申请实施例涉及计算机视觉,尤其涉及一种文本处理方法及装置


技术介绍

1、计算机文字识别俗称光学字符识别(opt ica l character recogn it ion,ocr),ocr识别算法是指电子设备扫描图像资料,然后对扫描结果进行分析,输出图像资料中的文字的过程。

2、目前,ocr识别算法以“文本行”为单位进行文字提取,输出的文字也是以行的形式展示的。这种展示形式丢失了图像资料中文字原有的排版信息,为用户阅读带来一定程度的障碍。


技术实现思路

1、本申请的实施例提供一种文本处理方法及装置,可识别出图像中文字原有的排版信息,在一定程度上降低用户的阅读障碍,提高用户满意度。

2、为达到上述目的,本申请的实施例采用如下技术方案:

3、第一方面,本申请的实施例提供一种文本处理方法,包括:获取待识别图像;确定待识别图像对应的文本类型和文本信息,文本信息包括待识别图像对应的识别文本、识别文本对应的多个文本框、多个文本框的坐标信息、识别文本对应的多个段落框以及多个段落框的坐标信息;基于多个文本框、多个文本框的坐标信息、多个段落框以及多个段落框的坐标信息,确定待识别图像对应的多个分块数据;确定多个分块数据的属性信息,属性信息包括行高、行间距、行首缩进值和行尾缩进值中的至少一个;基于属性信息和文本类型,确定多个分块数据的排版信息,并将识别文本按照多个分块数据的排版信息展示。

4、也就是说,在本申请中可以基于待处理图像的属性信息还原待识别图像的排版信息,基于排版信息展示识别文本。这样,在一定程度上可以提高识别文本的可读性,降低了用户的阅读障碍,提高用户满意度。

5、在一种可能的设计方法中,文本类型包括文档文本、截图文本或第一文本;其中,第一文本为除文档文本和截图文本以外的文本类型,多个分块数据的排版信息包括多个分块数据的起始行和非起始行,基于属性信息和文本类型,确定多个分块数据的排版信息,包括:在文本类型是文档文本时,基于属性信息和属性信息对应的第一阈值范围,确定多个分块数据的起始行和非起始行;在文本类型是截图文本时,基于属性信息和属性信息对应的第二阈值范围,确定多个分块数据的起始行和非起始行;在文本类型是第一文本时,基于属性信息和属性信息对应的第三阈值范围,确定多个分块数据的起始行和非起始行。

6、也就是说,本申请针对不同文本类型的待识别图像设置不同的方式,来还原待识别图像的排版信息。有针对性的对待识别图像进行处理,从而提高排版信息的识别准确性。

7、在一种可能的设计方法中,确定多个分块数据的属性信息之前,方法还包括:基于多个文本框的坐标信息,按照预设排序规则,对多个文本框进行排序,得出多个文本框对应的多个行号;确定多个行号中,相邻两个行号对应的文本框是否为同一行;在相邻两个行号对应的文本框为同一行的情况下,合并相邻两个行号对应的文本框,并更新多个文本框的行号。本申请还设置的验证方式,来验证文本检测模型输出的文本框的准确性,从而为后续确定准确的排版信息提供良好的基础。

8、在一种可能的设计方法中,多个分块数据包括第一分块数据,在第一分块数据包括行首缩进值时,属性信息对应的第一阈值范围为:行间距是行高的第一倍数;或者,行首缩进值是行高的第二倍数;在第一分块数据不包括行首缩进值时,属性信息对应的第一阈值范围为:行间距是行高的第三倍数;在第一分块数据包括行尾缩进值时,属性信息对应的第一阈值范围为:行尾缩进值是行号的第四倍数。本申请提供一种确定文档文本的排版信息的方法。

9、在一种可能的设计方法中,多个分块数据包括第一分块数据,属性信息对应的第二阈值范围为:行间距是行高的第五倍数;在第一分块数据包括行首缩进值时,属性信息对应的第二阈值范围为:行首缩进值是行高的第六倍数;在第一分块数据包括行尾缩进值时,属性信息对应的第二阈值范围为:行尾缩进值是行号的第七倍数。本申请提供一种确定截图文本的排版信息的方法。

10、在一种可能的设计方法中,多个分块数据包括第一分块数据,属性信息对应的第三阈值范围为:行间距是行高的第八倍数;在第一分块数据包括行首缩进值时,属性信息对应的第三阈值范围为:行首缩进值是行高的第九倍数;在第一分块数据包括行尾缩进值时,属性信息对应的第三阈值范围为:行尾缩进值是行号的第十倍数。本申请提供一种确定第一文本的排版信息的方法。

11、在一种可能的设计方法中,基于多个文本框、多个文本框的坐标信息、多个段落框以及多个段落框的坐标信息,确定待识别图像对应的多个分块数据,包括:基于多个文本框的坐标信息和多个段落框的坐标信息,确定多个文本框中每个文本框对应的段落框;为每个文本框和每个文本框对应的段落框建立对应关系,基于对应关系,得到多个分块数据,一个分块数据包括一个段落框以及与该段落框对应的至少一个文本框。

12、在一种可能的设计方法中,基于多个文本框的坐标信息和多个段落框的坐标信息,确定多个文本框中每个文本框对应的段落框,包括:针对每个文本框执行以下步骤,得到文本框对应的段落框:基于文本框的坐标信息和多个段落框的坐标信息,确定文本框分别与多个段落框之间的交并比iou;将多个iou中最大的iou对应的段落框,作为文本框对应的段落框。本申请提供一种通过iou来确定文本框对应的段落框的方法。

13、在一种可能的设计方法中,确定多个行号中,相邻两个行号对应的文本框是否为同一行,包括:在第一文本框和第二文本框的横坐标的差值不超过第一阈值,且第一文本框和第二文本框的纵坐标的重叠度超过第二阈值的情况下,确定第一文本框和第二文本框是同一行,第一文本框和第二文本框为多个行号中,相邻两个行号对应的文本框。

14、在一种可能的设计方法中,确定待识别图像对应的文本类型包括:将待识别图像输入图像场景分类模型,图像场景分类模型输出待识别图像对应的文本类型。

15、第二方面,提供了一种电子设备,该电子设备具有实现上述第一方面的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

16、第三方面,提供了一种电子设备,包括:处理器和存储器;该存储器用于存储计算机执行指令,当该电子设备运行时,该处理器执行该存储器存储的该计算机执行指令,以使该电子设备执行如上述第一方面中任一项的文本处理方法。

17、第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述第一方面中任一项的文本处理方法。

18、第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面中任一项的文本处理方法。

19、第六方面,提供了一种装置(例如,该装置可以是芯片系统),该装置包括处理器,用于支持第一设备实现上述第一方面中所涉及的功能。在一种可能的设计中,该装置还包括存储器,该存储器,用于保存第一设备本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文本类型包括文档文本、截图文本或第一文本;其中,所述第一文本为除所述文档文本和所述截图文本以外的文本类型,所述多个分块数据的排版信息包括所述多个分块数据的起始行和非起始行,所述基于所述属性信息和所述文本类型,确定所述多个分块数据的排版信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述确定所述多个分块数据的属性信息之前,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述多个分块数据包括第一分块数据,

5.根据权利要求3所述的方法,其特征在于,所述多个分块数据包括第一分块数据,

6.根据权利要求3所述的方法,其特征在于,所述多个分块数据包括第一分块数据,

7.根据权利要求1所述的方法,其特征在于,所述基于所述多个文本框、所述多个文本框的坐标信息、所述多个段落框以及所述多个段落框的坐标信息,确定所述待识别图像对应的多个分块数据,包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述多个文本框的坐标信息和所述多个段落框的坐标信息,确定所述多个文本框中每个文本框对应的段落框,包括:

9.根据权利要求3所述的方法,其特征在于,所述确定所述多个行号中,相邻两个行号对应的文本框是否为同一行,包括:

10.根据权利要求1-9中任一项所述的方法,其特征在于,所述确定所述待识别图像对应的文本类型包括:

11.一种电子设备,其特征在于,包括:处理器、存储器、总线和通信接口;

12.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令在终端上运行时,使得所述终端执行如权利要求1-10中任一项所述的文本处理方法。

13.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品在终端上运行时,使得所述终端执行如权利要求1-10中任一项所述的文本处理方法。

...

【技术特征摘要】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文本类型包括文档文本、截图文本或第一文本;其中,所述第一文本为除所述文档文本和所述截图文本以外的文本类型,所述多个分块数据的排版信息包括所述多个分块数据的起始行和非起始行,所述基于所述属性信息和所述文本类型,确定所述多个分块数据的排版信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述确定所述多个分块数据的属性信息之前,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述多个分块数据包括第一分块数据,

5.根据权利要求3所述的方法,其特征在于,所述多个分块数据包括第一分块数据,

6.根据权利要求3所述的方法,其特征在于,所述多个分块数据包括第一分块数据,

7.根据权利要求1所述的方法,其特征在于,所述基于所述多个文本框、所述多个文本框的坐标信息、所述多个段落框以及所述多个段落框的坐标信...

【专利技术属性】
技术研发人员:孙甜甜刘石磊刘曦郑昊亮李一博
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1