一种基于图像处理库PIL的多粒度ocr数据集生成方法和系统技术方案

技术编号：40466901 阅读：29 留言：0更新日期：2024-02-22 23:21

一种基于图像处理库PIL的多粒度ocr数据集生成方法，包括：获取与目标语言相关的图片；设置图片路径和字体路径，并加载图片和字体到系统中；获取要写入的txt文本文件，将文本按行取出，写入随机加载好的图片中；根据第一个字的横坐标、纵坐标计算出每段话、每行、每个字的坐标信息；将图片文件中的每一页的文本坐标与内容信息导出至一个对应json标注文件中并保存。本发明专利技术结合了json的生成技术，产生图片的同时也能够形成一个json文件，其中包含了每句话、每一行、每个单词，以及每个字符的坐标位置。本可以快速地高精度地产生多粒度的文本识别训练数据，提高了OCR数据集生成的精度和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是ocr和计算机视觉领域，特别涉及一种基于图像处理库pil的多粒度ocr的数据集生成方法和系统。

技术介绍

1、ocr即光学字符识别技术，是通过将文本图像输入计算机中进行特征提取和分类识别的技术。在ocr技术的应用中，数据集的生成是至关重要的一步。生成ocr数据集的主要技术背景是计算机视觉和机器学习，其中计算机视觉技术主要用于预处理图像，提取图像中的文本，而机器学习技术主要用于训练分类模型。

2、目前ocr数据集的生成方式主要有两种方式，一种为纯人工的标注方式，由标注人员手动将图像中的文本区域标注出来，并转写出该文本区域的文本内容。另一种则使用工具来自动生成全新的随机的数据集，比如synth-text是做的较好的ocr数据集生成方法，该工具根据一些简单的规则和参数来创建合成文本图像，并自动生成与其相关的文本框和字符级别ground truth。

3、生成ocr项目的训练依赖于优质的、有代表性的训练样本，如果数据集太小或者数据集在样本选择方面存在偏差，那么模型训练效果就很容易受到影响。此外，在某些场...

【技术保护点】

1.一种基于图像处理库PIL的多粒度ocr数据集生成方法，其特征在于，包括：

2.如权利要求1所述的一种基于图像处理库PIL的多粒度ocr的数据集生成方法，其特征在于，S100中，通过互联网或其他渠道获取与目标语言相关的图片，所述图片至少代表目标语言所在地区的文化、风景、人物特征，保证生成的数据集更加贴合目标语言的使用场景。

3.如权利要求1所述的一种基于图像处理库PIL的多粒度ocr的数据集生成方法，其特征在于，S200中，若图片或字体加载失败，则选择其他图片或字体进行载入。

4.如权利要求1所述的一种基于图像处理库PIL的多粒度ocr的数据集生成方...

【技术特征摘要】

1.一种基于图像处理库pil的多粒度ocr数据集生成方法，其特征在于，包括：

2.如权利要求1所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法，其特征在于，s100中，通过互联网或其他渠道获取与目标语言相关的图片，所述图片至少代表目标语言所在地区的文化、风景、人物特征，保证生成的数据集更加贴合目标语言的使用场景。

3.如权利要求1所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法，其特征在于，s200中，若图片或字体加载失败，则选择其他图片或字体进行载入。

4.如权利要求1所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法，其特征在于，s300中，将文本按行取出，写入随机加载好的图片中，其中，每段话第一个字的横坐标x是随机的，第一个字的纵坐标y的也是随机的。

5.如权利要求1所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法，其特征在于，s300中，获取要写入的txt文本文件，将文本按行取出，写入随机加载好的图片中，具体方法包括：

6.如权利要求5所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法，其特征在于，s302中，确定在图...

【专利技术属性】
技术研发人员：周玉，宗绪泉，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人