【技术实现步骤摘要】
本专利技术涉及的是ocr和计算机视觉领域,特别涉及一种基于图像处理库pil的多粒度ocr的数据集生成方法和系统。
技术介绍
1、ocr即光学字符识别技术,是通过将文本图像输入计算机中进行特征提取和分类识别的技术。在ocr技术的应用中,数据集的生成是至关重要的一步。生成ocr数据集的主要技术背景是计算机视觉和机器学习,其中计算机视觉技术主要用于预处理图像,提取图像中的文本,而机器学习技术主要用于训练分类模型。
2、目前ocr数据集的生成方式主要有两种方式,一种为纯人工的标注方式,由标注人员手动将图像中的文本区域标注出来,并转写出该文本区域的文本内容。另一种则使用工具来自动生成全新的随机的数据集,比如synth-text是做的较好的ocr数据集生成方法,该工具根据一些简单的规则和参数来创建合成文本图像,并自动生成与其相关的文本框和字符级别ground truth。
3、生成ocr项目的训练依赖于优质的、有代表性的训练样本,如果数据集太小或者数据集在样本选择方面存在偏差,那么模型训练效果就很容易受到影响。此外,在某些场
...【技术保护点】
1.一种基于图像处理库PIL的多粒度ocr数据集生成方法,其特征在于,包括:
2.如权利要求1所述的一种基于图像处理库PIL的多粒度ocr的数据集生成方法,其特征在于,S100中,通过互联网或其他渠道获取与目标语言相关的图片,所述图片至少代表目标语言所在地区的文化、风景、人物特征,保证生成的数据集更加贴合目标语言的使用场景。
3.如权利要求1所述的一种基于图像处理库PIL的多粒度ocr的数据集生成方法,其特征在于,S200中,若图片或字体加载失败,则选择其他图片或字体进行载入。
4.如权利要求1所述的一种基于图像处理库PIL的多粒度
...【技术特征摘要】
1.一种基于图像处理库pil的多粒度ocr数据集生成方法,其特征在于,包括:
2.如权利要求1所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法,其特征在于,s100中,通过互联网或其他渠道获取与目标语言相关的图片,所述图片至少代表目标语言所在地区的文化、风景、人物特征,保证生成的数据集更加贴合目标语言的使用场景。
3.如权利要求1所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法,其特征在于,s200中,若图片或字体加载失败,则选择其他图片或字体进行载入。
4.如权利要求1所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法,其特征在于,s300中,将文本按行取出,写入随机加载好的图片中,其中,每段话第一个字的横坐标x是随机的,第一个字的纵坐标y的也是随机的。
5.如权利要求1所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法,其特征在于,s300中,获取要写入的txt文本文件,将文本按行取出,写入随机加载好的图片中,具体方法包括:
6.如权利要求5所述的一种基于图像处理库pil的多粒度ocr的数据集生成方法,其特征在于,s302中,确定在图...
【专利技术属性】
技术研发人员:周玉,宗绪泉,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。