识别结果处理方法、设备及计算机可读介质技术

技术编号:42087029 阅读:15 留言:0更新日期:2024-07-19 17:02
本申请实施例提供了一种识别结果处理方法、设备及计算机可读介质,本方案,该方案不需要依赖外置的语言模型,而是可以结合原始的输入图像、识别出的文本行位置、文本行内容以及所有识别文本等额外的信息,对候选识别结果的识别质量进行评分,从而实现了从图像和文本两方面,对候选识别结果进行全局(整体的输入图像、所有识别文本)加局部(每条文本行内容、文本行图像以及文本行位置)的筛选,解决了识别性能受限于外置的语言模型的问题,并且有效提高了识别的准确性。

【技术实现步骤摘要】

本申请涉及图像处理领域,尤其涉及一种识别结果处理方法、设备及计算机可读介质


技术介绍

1、光学字符识别(ocr,optical character recognition)是指利用电子设备采用光学的方式将纸张等实体文档中的文字转换成为图像文件,并通过图像识别技术对图像中的文字进行识别,以获取文本信息的技术。在现有的ocr识别方案中,对于初步得到的识别结果,通常采用可以两种方式进行处理,一种是贪婪搜索(greedy search)算法,另一种是束搜索(beam search)算法。

2、对于束搜索算法,一般会设置n条搜索路径,也就是会得到n条候选结果,然后通过一个外置的语言模型,选出这n条候选结果概率最大的候选结果作为最后的识别结果。但是外置的语言模型一般是通过n-gram方法统计而来,需要业务专业知识定制,而且n的设置不同,也会导致选出不同的结果。因此,此类ocr识别方案的准确性会受限于外置语言模型的性能,若外置语言模型的性能不佳时,ocr识别方案的准确性也会受到严重影响,导致识别性能较差。


术实现思路<本文档来自技高网...

【技术保护点】

1.一种识别结果处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据所述输入图像、所述文本行图像以及所述文本行位置,提取关注于图像的第一特征信息,包括:

3.根据权利要求2所述的方法,其特征在于,基于交叉注意力机制,对所述整体图像特征信息、局部图像特征信息和位置特征信息进行特征融合,获取关注于图像的第一特征信息,包括:

4.根据权利要求1所述的方法,其特征在于,对每组候选识别结果的文本行内容进行拼接,获取识别文本,并根据所述识别文本、所述文本行内容以及所述文本行位置,提取关注于文本的第二特征信息,包括

5....

【技术特征摘要】

1.一种识别结果处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据所述输入图像、所述文本行图像以及所述文本行位置,提取关注于图像的第一特征信息,包括:

3.根据权利要求2所述的方法,其特征在于,基于交叉注意力机制,对所述整体图像特征信息、局部图像特征信息和位置特征信息进行特征融合,获取关注于图像的第一特征信息,包括:

4.根据权利要求1所述的方法,其特征在于,对每组候选识别结果的文本行内容进行拼接,获取识别文本,并根据所述识别文本、所述文本行内容以及所述文本行位置,提取关注于文本的第二特征信息,包括:

5.根据权利要求4所述的方法,其特征在于,基于交叉注意力机制,对所述整体文本特征信息、局部文本特征信息和位置特征信息进行特征融合,获取关注于文本的第二特征信息,...

【专利技术属性】
技术研发人员:刘玉龙孔欧刘益东
申请(专利权)人:上海蜜度数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1