一种OCR识别结果的处理方法及装置制造方法及图纸

技术编号：40606389 阅读：6 留言：0更新日期：2024-03-12 22:12

本公开提供一种OCR识别结果的处理方法，包括：获取OCR识别目标图片得到的第一文字块集；从第一文字块集中删除块高大于块宽的文字块，得到第二文字块集；对于第二文字块集中的第一文字块，将其与在目标图片中的距离满足阈值的第二文字块合并，以确定第三文字块集；第二文字块集包括第二文字块，第三文字块集被用于确定目标文字块集，目标文字块集中各个文字块表示的字符串被用作大语言模型的训练语料。由此，在大语言模型训练的场景下，通过减少识别出错的文字而减少了不准确数据的干扰，提高了数据的可用性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图片处理，尤其涉及一种ocr识别结果的处理方法及装置。

技术介绍

1、光学字符识别(optical character recognition，ocr)是指通过扫描字符，然后根据其形状将其翻译成电子文本的过程。在ocr识别过程中，往往会将图片、图形错误的识别为文字。因此，需要对ocr识别结果进行处理。

2、对于ocr识别结果的处理，需要根据具体的需要和应用场景确定具体的方案。例如，一些方案可能会使用更复杂的图片处理技术，或者使用更复杂的预训练神经网络模型对识别结果进行处理，以提高识别的准确性，但这样的处理过程通常具有较高的复杂性。

3、随着大语言模型训练技术的不断发展，产生了根据ocr识别结果提供语料，以供大语言模型进行训练的应用场景。因此，需要根据这种应用场景，提出更为简单且便捷的ocr识别结果的处理方法。

技术实现思路

1、为了解决上述问题，本申请提出一种ocr识别结果的处理方法、装置及电子设备，能简单且便捷的对ocr识别结果进行处理，并产生成段语料用于大语言模型训练。

2、第一方面，本申请提供一种ocr识别结果的处理方法，该方法包括：获取ocr识别目标图片得到的第一文字块集；从第一文字块集中删除块高大于块宽的文字块，得到第二文字块集；对于第二文字块集中的第一文字块，将其与在目标图片中的距离满足阈值的第二文字块合并，以确定第三文字块集；第二文字块集包括第二文字块，第三文字块集被用于确定目标文字块集，目标文字块集中各个文字块表示的字符

3、由此，本申请在大语言模型训练的场景下，通过减少识别出错的文字而减少了不准确数据的干扰，提高了数据的可用性。另外，该方案可以便捷在具有一定运算处理能力的硬件平台上进行实施，具有较强的适用性。

4、在一种可能的实现方式中，该方法还包括：从第三文字块集中删除所表示的字符串中包括预设关键字的文字块，得到第四文字块集；基于第四文字块集确定目标文字块集。

5、在一种可能的实现方式中，该方法还包括：从第四文字块集中删除所表示的字符串长度小于第一长度的文字块，得到第五文字块集；基于第五文字块集确定目标文字块集。

6、在一种可能的实现方式中，该方法还包括：对第五文字块集中的每个文字块，根据该文字块表示的字符串确定一个满足第二长度的子字符串；从第五文字块集中删除子字符串中不包括中文字符的对应文字块，得到目标文字块集。

7、在一种可能的实现方式中，根据该文字块表示的字符串确定一个满足第二长度的子字符串，包括：从该文字块表示的字符串的首字符开始，确定第二长度个连续的字符组成子字符串。

8、在一种可能的实现方式中，阈值包括第一阈值；将其与在目标图片中的距离满足阈值的第二文字块合并，以确定第三文字块集，包括：从第二文字块集中确定与第一文字块在目标图片中纵坐标相同，且块间行距满足第一阈值的第二文字块；在第二文字块集中合并第一文字块和第二文字块，得到第一临时文字块集；基于第一临时文字块集确定第三文字块集。

9、在一种可能的实现方式中，基于第一临时文字块集确定第三文字块集，包括：对于第一临时文字块集中的第三文字块，确定与第三文字块在目标图片中块前行距满足第一阈值，且块间列距满足第二阈值的第四文字块；第一临时文字块集包括第四文字块；在第一临时文字块集中合并第三文字块和第四文字块，得到第二临时文字块集；基于第二临时文字块集确定第三文字块集。

10、在一种可能的实现方式中，基于第二临时文字块集确定第三文字块集，包括：对于第二临时文字块集中的第五文字块，确定与第五文字块在目标图片中块间列距满足第二阈值，且块前行距满足第三阈值的第六文字块；第二临时文字块集包括第六文字块；在第二临时文字块集中合并第五文字块和第六文字块，得到第三文字块集。

11、第二方面，本申请提供一种ocr识别结果的处理装置，其特征在于，装置包括：获取模块，获取ocr识别目标图片得到的第一文字块集；删除模块，从第一文字块集中删除块高大于块宽的文字块，得到第二文字块集；合并模块，对于第二文字块集中的第一文字块，将其与在目标图片中的距离满足阈值的第二文字块合并，以确定第三文字块集；第二文字块集包括第二文字块；第三文字块集被用于确定目标文字块集，目标文字块集中各个文字块表示的字符串被用作大语言模型的训练语料。

12、第三方面，本申请提供一种电子设备，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行存储器存储的程序；其中，当存储器存储的程序被执行时，处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

13、可以理解的是，上述第二方面至第三方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本文档来自技高网...

【技术保护点】

1.一种OCR识别结果的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据该文字块表示的字符串确定一个满足第二长度的子字符串，包括：

6.根据权利要求1所述的方法，其特征在于，所述阈值包括第一阈值；

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一临时文字块集确定所述第三文字块集，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述第二临时文字块集确定所述第三文字块集，包括：

9.一种OCR识别结果的处理装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行所述存储器存储的程序；其中，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-8任一所述的方法。p>...

【技术特征摘要】

1.一种ocr识别结果的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据该文字块表示的字符串确定一个满足第二长度的子字符串，包括：

6.根据权利要求1所述的方法，其特征在于，所述阈值包括第一阈值；

7.根...

【专利技术属性】
技术研发人员：赵文博，夏敏，易丛文，管健，
申请(专利权)人：深圳智现未来工业软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人