System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种OCR模型后处理方法、系统及存储介质技术方案_技高网

一种OCR模型后处理方法、系统及存储介质技术方案

技术编号:41075126 阅读:4 留言:0更新日期:2024-04-24 11:32
本发明专利技术公开了一种OCR模型后处理方法、系统及存储介质。所述方法包括:获取光学字符识别OCR模型对待处理数据进行文本检测和识别得到的文本识别结果;根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵;根据滑动窗口矩阵确定滑动窗口的置信度;根据滑动窗口的置信度选择滑动窗口最优解;结合滑动窗口最优解,利用复杂度评分机制,确定OCR识别结果。本发明专利技术通过引入一个灵活的滑动窗口机制和置信度评分机制,针对特定工业文本识别任务进行优化,可有效提高OCR在特定工业环境中的准确性和效率。

【技术实现步骤摘要】

本申请涉及光学字符识别,具体而言,涉及一种ocr模型后处理方法、系统及存储介质。


技术介绍

1、在现有的基于深度学习的光学字符识别(ocr)技术中,尤其是那些应用于工业场景的ocr系统,存在一些显著的局限性和缺陷,尤其是在处理具有特定格式或规律的文本时。这些缺点主要表现在以下几个方面:

2、预测范围过宽的问题:现有的文本检测算法在确定文本区域时,经常会预测出比实际文本更宽的范围。这种过宽的预测不仅增加了后续识别处理的复杂性,还可能导致在识别结果中出现前后多余的字符,影响最终的识别准确性。

3、固定识别范围的限制:当前的深度学习驱动的ocr模型通常具有固定的识别范围,这意味着它们能够识别的字符类型是预先定义且固定的,如包括数字、大小写字母和特殊符号等。这种固定范围的设定在特定应用场景下显得过于泛化,例如在仅需识别数字的日期识别场景中,模型仍可能错误地识别出字母或其他非期望字符。

4、识别精度与应用场景的不匹配:由于现有ocr技术未能充分考虑到特定应用场景下的文本规律性,如固定长度的产品编号或特定格式的日期,这导致了在实际应用中,即使在文本检测准确的情况下,文本识别的精度仍然不尽人意。这种不匹配的现象在工业应用中尤为明显,因为工业环境通常要求高度精确且可靠的文本识别。

5、综上所述,现有技术在工业应用中的这些缺点限制了ocr系统的效能和实用性,特别是在处理需要高精度和特定格式识别的文本时。


技术实现思路

1、本申请的目的在于提供一种ocr模型后处理方法、系统及存储介质。通过引入一个灵活的滑动窗口机制和置信度评分机制,针对特定工业文本识别任务进行优化,以提高基于深度学习的文本识别系统在工业应用中的准确性和可靠性。

2、本申请第一方面提供了一种ocr模型后处理方法,所述方法包括:

3、获取光学字符识别ocr模型对待处理数据进行文本检测和识别得到的文本识别结果;

4、根据所述文本识别结果,生成文本识别结果矩阵;根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵;

5、根据滑动窗口矩阵确定滑动窗口的置信度;

6、根据滑动窗口的置信度选择滑动窗口最优解;

7、结合滑动窗口最优解,利用复杂度评分机制,确定ocr识别结果。

8、可选地,所述文本识别结果矩阵为:

9、,

10、其中,表示文本识别结果矩阵,表示最大可识别字符串的长度,表示字符类型的数量,表示在第个个位置上字符属于第类的概率。

11、可选地,所述根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵,包括:

12、预设限定条件,包括字符长度、字符类型;

13、定义滑动窗口矩阵,滑动窗口矩阵宽度与文本识别结果矩阵p的列数n相同;

14、若预设限定了字符长度,则滑动窗口的长度等于,并将长度标记freelength设为0(freelength为0表示限定字符长度,1表示不限定字符长度);

15、若未限定字符长度,但限定了字符类型,等于有字符类型限制的最大长度,同时设置长度标记freelength设为1;

16、滑动窗口矩阵的每个元素表示在文本识别结果矩阵p中第i行第j列的字符是否出现;如果出现,则将标记为1;否则标记为0。

17、可选地,所述根据滑动窗口矩阵确定滑动窗口的置信度,包括:

18、假设滑动窗口矩阵w中每个可能的滑动窗口位置k的滑动窗口覆盖从第k个字符到第k+个字符;

19、遍历滑动窗口矩阵w中每个可能的滑动窗口位置k,计算每个滑动窗口位置k对应的置信度:

20、。

21、可选地,所述根据滑动窗口的置信度选择滑动窗口最优解,包括:

22、根据滑动窗口的置信度,确定置信度最高的滑动窗口;

23、并关注置信度最高的滑动窗口中长度标记freelength的值;

24、如果长度标记freelength的值为0,则滑动窗口的长度即为文本的长度;

25、如果长度标记freelength的值为1,则最优滑动窗口位置为该文本的起始位,而文本的长度根据文本识别结果矩阵p中获取的结束位确定。

26、可选地,置信度最高的滑动窗口的位置的计算公式为:

27、,

28、其中,是具有最高置信度的滑动窗口位置,k为所有可能的滑动窗口位置的集合,argmax是一种函数,是对函数求参数的函数。

29、可选地,所述复杂度评分机制,包括:

30、计算复杂度综合评分,

31、如果复杂度综合评分低于预设评分,则修改预设条件(增加可能性较低的字符类型,或调整滑动窗口长度),重新初始化滑动窗口;

32、如果复杂度综合评分不低于预设评分,则输出ocr识别结果。

33、可选地,复杂度综合评分的计算公式为:

34、,

35、其中,表示密度评估,为滑动窗口w中标记为1的元素个数占w中所有元素个数的比例;

36、,

37、表示分散性评估,为标记为1的元素在滑动窗口中分布的均匀程度;

38、,

39、为置信度集和的标准差;

40、,

41、为复杂度综合评分,,和是权重因子。是w中标记为1的元素的总和,是w中所有元素的个数。表示标记为1的元素的位置,是所有的平均值。表示第k个滑动窗口的置信度,是所有的平均值。k是滑动窗口的总数。

42、本申请第二方面提供了一种ocr模型后处理系统,该系统包括:存储器及处理器,所述存储器中包括一种ocr模型后处理方法的程序,所述ocr模型后处理方法的程序被所述处理器执行时实现所述ocr模型后处理方法的步骤。

43、本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括ocr模型后处理方法程序,所述ocr模型后处理方法程序被处理器执行时,实现所述ocr模型后处理方法的步骤。

44、由上可知,本申请提供的一种ocr模型后处理方法、系统及存储介质。本申请通过引入用户定义的限定范围(如字符长度或特定字符集),有效缩减了深度学习模型在识别时的错误率。特别是在工业应用中,对于需要高度精确性的场景,如日期或产品编号识别,本申请所述方法能显著提升识别的准确度。本申请所述方法不仅限于固定的字符类型或格式,而是可以根据实际应用的需求灵活适配,例如仅识别数字或特定格式的文本;这种灵活性使得本专利技术在各种特定的应用场景下都能表现出更好的效果。本申请通过维护一个滑动窗口并计算每个窗口的置信度,有效减少了不必要的计算和错误的可能性。这一优化不仅提高了整体识别效率,还有助于降低系统的计算负担,特别是在处理大量文本数据时更显其优。本申请通过选择最大置信度作为最终识别结果,在提高识别精度的同时,也增强了结果的可靠性。这对于那些本文档来自技高网...

【技术保护点】

1.一种OCR模型后处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种OCR模型后处理方法,其特征在于,所述文本识别结果矩阵为:

3.根据权利要求2所述的一种OCR模型后处理方法,其特征在于,所述根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵,包括:

4.根据权利要求3所述的一种OCR模型后处理方法,其特征在于,所述根据滑动窗口矩阵确定滑动窗口的置信度,包括:

5.根据权利要求4所述的一种OCR模型后处理方法,其特征在于,所述根据滑动窗口的置信度选择滑动窗口最优解,包括:

6.根据权利要求5所述的一种OCR模型后处理方法,其特征在于,置信度最高的滑动窗口的位置的计算公式为:

7.根据权利要求6所述的一种OCR模型后处理方法,其特征在于,所述复杂度评分机制,包括:

8.根据权利要求7所述的一种OCR模型后处理方法,其特征在于,复杂度综合评分的计算公式为:

9.一种OCR模型后处理系统,其特征在于,该系统包括:存储器及处理器,所述存储器中包括一种OCR模型后处理方法的程序,所述OCR模型后处理方法的程序被所述处理器执行时实现权利要求1-8任一项所述的OCR模型后处理方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括OCR模型后处理方法程序,所述OCR模型后处理方法程序被处理器执行时,实现权利要求1-8任一项所述的OCR模型后处理方法的步骤。

...

【技术特征摘要】

1.一种ocr模型后处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种ocr模型后处理方法,其特征在于,所述文本识别结果矩阵为:

3.根据权利要求2所述的一种ocr模型后处理方法,其特征在于,所述根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵,包括:

4.根据权利要求3所述的一种ocr模型后处理方法,其特征在于,所述根据滑动窗口矩阵确定滑动窗口的置信度,包括:

5.根据权利要求4所述的一种ocr模型后处理方法,其特征在于,所述根据滑动窗口的置信度选择滑动窗口最优解,包括:

6.根据权利要求5所述的一种ocr模型后处理方法,其特征在于,置信度最高的滑动窗口的位置的计...

【专利技术属性】
技术研发人员:赵书雯陈安董正桥周才健朱俊杰周柔刚
申请(专利权)人:杭州汇萃智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1