图像文本识别性能的测试方法、装置、测试设备及介质制造方法及图纸

技术编号:25440868 阅读:26 留言:0更新日期:2020-08-28 22:28
本发明专利技术实施例公开了一种图像文本识别性能的测试方法、装置、测试设备及介质,其中方法包括:获取对文本图像进行文本标注得到的标注文本,以及采用识别引擎对所述文本图像进行文本识别得到的识别文本;根据所述文本图像的图像类型,确定对所述识别引擎的文本识别性能进行评测的评测策略,并确定所述评测策略的关联评测参数;从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值;根据所述评测策略和所述评测参数值,确定所述识别引擎的文本识别性能,可实现对识别引擎的文本识别性能进行全面评测。

【技术实现步骤摘要】
图像文本识别性能的测试方法、装置、测试设备及介质
本申请涉及计算机
,尤其涉及一种图像文本识别性能的测试方法、装置、测试设备及介质。
技术介绍
文本识别是指利用计算机自动识别字符的技术,由于在人们的生产和生活中,需要处理大量的文字、报表和文本,为了减轻人们的文本处理压力,从而提升工作效率,可采用文本识别引擎辅助用户进行文本识别工作,该识别引擎例如可以是光学字符识别引擎等。当前市面存在由不同厂家提供的识别引擎,由于各厂家提供的识别引擎的商业用途不同,因此,不同厂家提供的识别引擎对图像文本进行识别时的性能存在一定的差异性,如有的识别引擎对亮光下的文本图像进行识别时的性能较好,而有的识别引擎对暗光下的文本图像的识别性能较好,而用户在选取识别引擎时,是基于各识别引擎的性能差异进行选取的,因此,如何实现对不同识别引擎的文本识别性能进行全面评测,成为了当前的研究热点。
技术实现思路
本专利技术实施例提供了一种图像文本识别性能的测试方法、装置、测试设备及介质,可实现对识别引擎的文本识别性能进行全面评测。一方面,本专利技术实施例提供了一种图像文本识别性能的测试方法,包括:获取对文本图像进行文本标注得到的标注文本,以及采用识别引擎对所述文本图像进行文本识别得到的识别文本;根据所述文本图像的图像类型,确定对所述识别引擎的文本识别性能进行评测的评测策略,并确定所述评测策略的关联评测参数;从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值;根据所述评测策略和所述评测参数值,确定所述识别引擎的文本识别性能。再一方面,本专利技术实施例提供了一种图像文本识别性能的测试装置,包括:获取单元,用于获取对文本图像进行文本标注得到的标注文本,以及采用识别引擎对所述文本图像进行文本识别得到的识别文本;确定单元,用于根据所述文本图像的图像类型,确定对所述识别引擎的文本识别性能进行评测的评测策略,并确定所述评测策略的关联评测参数;所述确定单元,还用于从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值;所述确定单元,还用于根据所述评测策略和所述评测参数值,确定所述识别引擎的文本识别性能。在一个实施例中,所述确定单元,具体用于:根据所述文本图像的图像类型,从所述文本图像中获取多个字段,以及每个字段的字段内容;若获取的各字段中的字段内容相互关联,则获取第一评测指标集,并根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略,所述第一评测指标集包括:字段粒度评测指标、告警功能评测指标、响应速率评测指标中的任意一个或多个;若从所述文本图像中获取字段失败,则获取第二评测指标集,并根据所述第二评测指标集确定对所述识别引擎的字符识别性能进行评测的第二评测策略,所述第二评测指标集包括:字符粒度评测指标或响应速率评测指标中的任意一个或两个。在一个实施例中,所述字段粒度评测指标包括:字段识别召回维度,字段识别准确维度,字段召回均值维度和字段准确均值维度中的至少一个评测维度;所述根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略,包括:根据所述第一评测指标集确定字段评测参数,并根据所述字段评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略;其中,所述字段评测参数包括以下一种或多种:所述字段识别召回维度的字段召回参数和字段总召回之间的比值;所述字段识别准确维度的字段准确参数和输出总字段之间的比值;所述字段召回均值维度的字段召回均值参数和字段总召回之间的比值;所述字段准确均值维度的字段准确均值参数和输出总字段之间的比值。在一个实施例中,所述告警功能评测指标包括:告警维度,或误告警维度中的至少一个评测维度;所述根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略,包括:根据所述第一评测指标集确定告警评测参数,并根据所述告警评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略;其中,所述告警评测参数包括以下一种或多种:所述告警维度的正确告警参数和需要告警总参数之间的比值;所述误告警维度的误告警参数和不需要总告警参数之间的比值。在一个实施例中,所述响应速率评测指标包括:识出率维度,平均耗时维度和最大耗时维度中的至少一个评测维度;所述根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略,包括:根据所述第一评测指标集确定速率评测参数,并根据所述速率评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略;其中,所述速率评测参数包括以下一种或多种:所述识出率维度的字段识出参数和字段总识别之间的比值;所述平均耗时维度的字段识出耗时参数和识出总耗时之间的比值;所述最大耗时维度的最大耗时参数。在一个实施例中,所述字符粒度评测指标包括:字符识别召回维度,字段识别召回维度,字符最小编辑距离维度和全图编辑距离维度中的至少一个评测维度;所述根据所述第二评测指标集确定对所述识别引擎的字符识别性能进行评测的第二评测策略,包括:根据所述第二评测指标集确定字符评测参数,并根据所述字符评测参数确定对所述识别引擎的字符识别性能进行评测的第二评测策略;其中,所述字符评测参数包括以下一种或多种:所述字符识别召回维度的字符召回参数和字符总召回之间的比值;所述字符识别准确维度的字符准确参数和输出总字符之间的比值;所述字符最小编辑距离维度的修改字符参数;所述全图编辑距离维度的修改总字符。在一个实施例中,所述文本标注文本包括:标签标注,所述获取单元,还用于获取对所述文本图像进行文本标注得到的标注文本包括的标签标注,并根据所述标签标注确定所述文本图像的图像类型;其中,所述图像类型包括第一类型和第二类型,所述第一类型的文本图像包括的字段对应的字段内容相互关联;所述第二类型的文本图像的字段内容不存在所述关联关系。在一个实施例中,所述装置还包括:处理单元。处理单元,用于对所述标注文本和所述识别文本的文本格式进行标准化处理,使所述标注文本的文本格式和所述识别文本的文本格式保持一致;其中,所述文本格式包括以下一种或多种:日期格式,数字格式和符号格式。在一个实施例中,所述装置还包括:添加单元和更新单元。添加单元,用于为所述第一评测指标集中的各评测指标添加第一标记,并为所述第二评测指标集中的各评测指标添加第二标记;更新单元,用于响应于对所述第一评测指标集中各评测指标的更新指令,对所述第一标记进行更新;或者,所述更新单元,还用于响应于对所述第二评测指标集中各评测指标的更新指令,对所述第二标记进行更新。再一方面,本专利技术实施例提供了一种测试设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器本文档来自技高网...

【技术保护点】
1.一种图像文本识别性能的测试方法,其特征在于,包括:/n获取对文本图像进行文本标注得到的标注文本,以及采用识别引擎对所述文本图像进行文本识别得到的识别文本;/n根据所述文本图像的图像类型,确定对所述识别引擎的文本识别性能进行评测的评测策略,并确定所述评测策略的关联评测参数;/n从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值;/n根据所述评测策略和所述评测参数值,确定所述识别引擎的文本识别性能。/n

【技术特征摘要】
1.一种图像文本识别性能的测试方法,其特征在于,包括:
获取对文本图像进行文本标注得到的标注文本,以及采用识别引擎对所述文本图像进行文本识别得到的识别文本;
根据所述文本图像的图像类型,确定对所述识别引擎的文本识别性能进行评测的评测策略,并确定所述评测策略的关联评测参数;
从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值;
根据所述评测策略和所述评测参数值,确定所述识别引擎的文本识别性能。


2.根据权利要求1所述的方法,其特征在于,所述根据所述文本图像的图像类型,确定对所述识别引擎的文本识别性能进行评测的评测策略,包括:
根据所述文本图像的图像类型,从所述文本图像中获取多个字段,以及每个字段的字段内容;
若获取的各字段中的字段内容相互关联,则获取第一评测指标集,并根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略,所述第一评测指标集包括:字段粒度评测指标、告警功能评测指标、响应速率评测指标中的任意一个或多个;
若从所述文本图像中获取字段失败,则获取第二评测指标集,并根据所述第二评测指标集确定对所述识别引擎的字符识别性能进行评测的第二评测策略,所述第二评测指标集包括:字符粒度评测指标或响应速率评测指标中的任意一个或两个。


3.根据权利要求2所述的方法,其特征在于,所述字段粒度评测指标包括:字段识别召回维度,字段识别准确维度,字段召回均值维度和字段准确均值维度中的至少一个评测维度;
所述根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略,包括:
根据所述第一评测指标集确定字段评测参数,并根据所述字段评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略;其中,所述字段评测参数包括以下一种或多种:
所述字段识别召回维度的字段召回参数和字段总召回之间的比值;
所述字段识别准确维度的字段准确参数和输出总字段之间的比值;
所述字段召回均值维度的字段召回均值参数和字段总召回之间的比值;
所述字段准确均值维度的字段准确均值参数和输出总字段之间的比值。


4.根据权利要求2所述的方法,其特征在于,所述告警功能评测指标包括:告警维度,或误告警维度中的至少一个评测维度;
所述根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略,包括:
根据所述第一评测指标集确定告警评测参数,并根据所述告警评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略;其中,所述告警评测参数包括以下一种或多种:
所述告警维度的正确告警参数和需要告警总参数之间的比值;
所述误告警维度的误告警参数和不需要总告警参数之间的比值。


5.根据权利要求2所述的方法,其特征在于,所述响应速率评测指标包括:识出率维度,平均耗时维度和最大耗时维度中的至少一个评测维度;
所述根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略,包括:
根据所述第一评测指标集确定速率评测参数,并根据所述速率评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略;其中,所述速率评测参数包括以下一种或多种:
所述识出率维度的字段识出参数和字段总识...

【专利技术属性】
技术研发人员:曾璇王小叶
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1