用于评估OCR识别质量的方法及相关产品技术

技术编号:37211608 阅读:31 留言:0更新日期:2023-04-20 23:01
本发明专利技术的实施方式提供了一种用于评估OCR识别质量的方法及相关产品。其中,所述方法包括:获取关于图像中所有文本行的文字识别的标准结果;获取OCR接口对所述所有文本行的文字识别的预测结果;对所述标准结果和所述OCR接口对应的预测结果进行文本匹配检测,以得到整图检测指标;以及基于所述整图检测指标评估所述OCR接口对图像的识别质量。通过本发明专利技术的技术方案,可智能化地实现对OCR识别质量的高效以及精准评估。以及精准评估。以及精准评估。

【技术实现步骤摘要】
用于评估OCR识别质量的方法及相关产品


[0001]本专利技术的实施方式涉及图像处理
,更具体地,本专利技术的实施方式涉及用于评估OCR识别质量的方法,以及执行前述方法的电子设备和计算机可读存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]文字识别(optical character recognition,简称OCR)技术通常指对文本资料进行扫描,然后对图像进行分析处理以识别出文字的过程。在实际应用中,不同厂商提供的OCR接口或同一厂商的OCR接口更新迭代后,其对文字的识别质量不同。目前,针对OCR识别质量的评估技术多依赖人工评估方式,需要人为地一一逐字或词进行比对评估,不仅评估结果不够精准,且整个评估周期也较长。

技术实现思路
<br/>[0004]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于评估OCR识别质量的方法,其特征在于,包括:获取关于图像中所有文本行的文字识别的标准结果;获取OCR接口对所述所有文本行的文字识别的预测结果;对所述标准结果和所述OCR接口对应的预测结果进行文本匹配检测,以得到整图检测指标;以及基于所述整图检测指标评估所述OCR接口对图像的识别质量。2.根据权利要求1所述的方法,其特征在于,其中所述标准结果包括表示文本实际位置信息的标准文本框和表示文本框中实际内容的标准文本,所述预测结果包括表示文本预测位置信息的预测文本框和表示文本框中预测内容的预测文本,对所述标准结果和所述OCR接口对应的预测结果进行文本匹配处理包括:基于所有文本行对应的标准文本框和所述OCR接口对所述所有文本行的预测文本框之间的匹配结果计算整图的召回率和精准率;以及基于所有文本行对应的标准文本和所述OCR接口对所述所有文本行的预测文本计算整图的准确率,以确定所述整图的召回率、精准率和准确率为所述整图检测指标。3.根据权利要求2所述的方法,其特征在于,计算整图的召回率和精准率还包括:对所有文本行对应的标准文本框和所述OCR接口对所述所有文本行的预测文本框进行精准匹配处理;以及对经精准匹配处理失败的标准文本框和预测文本框再次执行扩大召回匹配处理;以及基于经精准匹配处理和扩大召回匹配处理后得到的标准文本框和预测文本框之间的匹配结果,计算整图的召回率和精准率。4.根据权利要求3所述的方法,其特征在于,对经精准匹配处理失败的标准文本框和预测文本框再次执行扩大召回匹配处理包括;调整扩大召回匹配处理过程中所使用的召回率阈值和精准率阈值,以使召回匹配处理过程中所使用的召回率阈值和精准率阈值低于精准匹配处理过程中所使用的召回率阈值和精准率阈值;以及基于调整后的召回率阈值和精准率阈值对经精准匹配处理失败的标准文本框和预测文本框进行召回。5.根据权利要求3所述的方法,其特征在于,计算整图的召回率和精准率包括:基于所有相匹...

【专利技术属性】
技术研发人员:张晓璐
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1