一种用于字符识别训练模型数据集的获取方法技术

技术编号:38586043 阅读:28 留言:0更新日期:2023-08-26 23:28
本发明专利技术提供了一种用于字符识别训练模型数据集的获取方法,包括:元素,用于字符识别的字符;样本,含所述元素的产品;单位时间,生产所述样本需要的时间,所述单位时间为生产批次、分钟、小时、日、月、年中的一种;原对象,由多个所述元素按照任意规则组成的用于字符识别的印记;新对象,由所述原对象中的所述元素重新按照任意规则组成的印记;及,还包括如下方法:选取低于所述单位时间内生产的所述样本;获取所述样本中的原对象;截取所述原对象中的所述元素;将由所述原对象中截取的所述元素,组成所述新对象;将所述新对象组成所述用于字符识别训练模型数据集。通过初期短时间或小批量生产中的数据采集,即可获取符合产品识别的用于字符识别训练模型数据集。用于字符识别训练模型数据集。用于字符识别训练模型数据集。

【技术实现步骤摘要】
一种用于字符识别训练模型数据集的获取方法


[0001]本专利技术涉及计算机
,尤其涉及一种用于字符识别训练模型数据集的获取方法。

技术介绍

[0002]目前字符识别模型的训练需要用到数据集,数据集所含字符图片的数量越多,识别率就越高。然而对于一些工业应用场景来说,由于种种条件的限制,使得识别模型在部署初期无法获得大量的字符图片,导致识别率较低,不能较快的投产达效,制约识别设备的判断与准确率。
[0003]如现实中某厂需对产品进行字符识别,根据粗略计算,至少需要生产数以千万计的产品才能获得足够多的字符图片。此方法缺点极其明显:时间周期长,且一旦某个产品的字符被漏检错检,就会造成字符图片的流失,导致数据集内容不齐全,降低识别率。所以亟需一种不必大量生产,只进行小规模生产就可以获得较为齐全的字符图片数据集的方法。这样既减少了资源浪费,节约成本,又可以在短期内提高识别率。

技术实现思路

[0004]本专利技术目的就是利用识别样本中的原对象信息,并进行分解,重新组合成新对象信息,从小规模的生产中获取含有字符图片数量较大的数据集。本专利技术所采用的技术方案为:一种用于字符识别训练模型数据集的获取方法,包括:
[0005]元素,用于字符识别的字符;
[0006]样本,含所述元素的产品;
[0007]单位时间,生产所述样本需要的时间,所述单位时间为生产批次、分钟、小时、日、月、年中的一种;
[0008]原对象,由多个所述元素按照任意规则组成的用于字符识别的印记;
[0009]新对象,由所述原对象中的所述元素重新按照任意规则组成的印记;
[0010]及,还包括如下方法:
[0011]选取低于所述单位时间内生产的所述样本;
[0012]获取所述样本中的原对象;
[0013]截取所述原对象中的所述元素;
[0014]将由所述原对象中截取的所述元素,组成所述新对象;
[0015]将所述新对象组成所述用于字符识别训练模型数据集。
[0016]优选地,还包括以下步骤:
[0017]将所述新对象组成所述用于字符识别训练模型数据集与所述原对象汇总。
[0018]优选地,所述新对象中所述元素位数为3到20位。
[0019]优选地,所述新对象中的元素种类应小于等于所述原对象中的元素种类。
[0020]优选地,所述元素为特殊符号、标点符号、数字符号、单位符号、希腊文、拉丁文、拼
音、注音、中文字符、英文音标、日文字符、韩文字符、俄文字符中的一种或多种。
[0021]优选地,在截取所述原对象中的所述元素步骤中,截取的所述元素为单个字符、两个字符、三个字符、四个字符,所述原对象的字符数量减一的字符中的一种。
[0022]优选地,还包括如下步骤:
[0023]截取所述原对象中的所述元素后,根据所述元素的亮度、大小、像素、分辨率中的一种或多种,对相同的所述元素进行分级;
[0024]根据所述分级后的所述元素,列为新的所述元素;
[0025]将所述新的所述元素和所述元素组成所述新对象。
[0026]优选地,所述分级为2

10级中的一种。
[0027]优选的,还包括以下步骤:
[0028]将所述新对象组成所述用于字符识别训练模型数据集后,将所述单位时间内组成的所述原对象加入所述新对象中。
[0029]优选地,还包括以下步骤:
[0030]将所述新对象组成所述用于字符识别训练模型数据集后,将所述单位时间内组成的所述新对象加入之前步骤中组成的所述新对象中。
[0031]本专利技术相对于现有技术的有益效果:通过初期短时间或小批量生产中的数据采集,即可获取符合产品识别的用于字符识别训练模型数据集。
附图说明
[0032]图1为本说明书实施例提供的一种方法的流程图;
[0033]图2为本说明书另一实施例提供的方法的流程图;
[0034]图3为本说明书实施例中新对象循环形成数据集的流程图;
[0035]图4为原对象、元素、数据集关系示意图;
[0036]图5为原对象中元素3优、中、差3级分类示意图。
具体实施方式
[0037]为使本方法实施例的目的、技术方案和优点更加清楚,下面将结合本方法中的附图,对本方法实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本方法一部分实施例,而不是全部的实施例,基于本方法中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]本专利技术目的就是利用识别样本中的原对象信息,并进行分解,重新组合成新对象信息,从小规模的生产中获取含有字符图片数量较大的数据集。请参阅图1至图3,本专利技术所采用的技术方案为:一种用于字符识别训练模型数据集的获取方法,包括:元素,用于字符识别的字符;样本,含所述元素的产品;单位时间,生产所述样本需要的时间,所述单位时间为生产批次、分钟、小时、日、月、年中的一种;原对象,由多个所述元素按照任意规则组成的用于字符识别的印记;新对象,由所述原对象中的所述元素重新按照任意规则组成的印记;及,还包括如下方法:选取低于所述单位时间内生产的所述样本;获取所述样本中的原对象;截取所述原对象中的所述元素;将由所述原对象中截取的所述元素,组成所述新对象;将所述新对象组成所述用于字符识别训练模型数据集。
[0039]需要说明的是,当单位时间中生产的样品数量庞大的时候,可以降级单位时间概念,选取小规模生产中所需的样品数量。设定单位时间的目的是概念化小规模生产和正常生产经营过程中产品生产,当然如果单位时间中产品生产数量较少,也可以不仅选取单位时间中的样品。
[0040]为了保存原对象数据库中的基础信息,本专利技术另一实施例中,还包括以下步骤:将所述新对象组成所述用于字符识别训练模型数据集与所述原对象汇总。通过将拆解和按照任意规则组合的新对象和原对象组合,形成数据集。数据集保存了按照用于字符识别训练模型数据集的获取方法获取的数据集和原始数据。同时,为了满足本专利技术所述方法中数据集的新对象可检测数量,所述新对象中所述元素位数为3到20位。所述元素位数指利用元素组成新对象的个数。在保持新对象和就对象中元素的种类和元素位数一致性的实施例中,所述新对象中的元素种类应小于等于所述原对象中的元素种类。所述元素为特殊符号、标点符号、数字符号、单位符号、希腊文、拉丁文、拼音、注音、中文字符、英文音标、日文字符、韩文字符、俄文字符中的一种或多种。在截取所述原对象中的所述元素步骤中,截取的所述元素为单个字符、两个字符、三个字符、四个字符,所述原对象的字符数量减一的字符中的一种。
[0041]本专利技术另一实施例中,还包括如下步骤:截取所述原对象中的所述元素后,根据所述元素的亮度、大小、像素、分辨率中的一种或多种,对相同的所述元素进行分级;根据所述分级后的所述元素,列为新的所述元素;将所述新的所述元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于字符识别训练模型数据集的获取方法,其特征在于,包括:元素,用于字符识别的字符;样本,含所述元素的产品;单位时间,生产所述样本需要的时间,所述单位时间为生产批次、分钟、小时、日、月、年中的一种;原对象,由多个所述元素按照任意规则组成的用于字符识别的印记;新对象,由所述原对象中的所述元素重新按照任意规则组成的印记;及,还包括如下方法:选取低于所述单位时间内生产的所述样本;获取所述样本中的原对象;截取所述原对象中的所述元素;将由所述原对象中截取的所述元素,组成所述新对象;将所述新对象组成所述用于字符识别训练模型数据集。2.根据权利要求1所述用于字符识别训练模型数据集的获取方法,其特征在于,还包括以下步骤:将所述新对象组成所述用于字符识别训练模型数据集与所述原对象汇总。3.根据权利要求1所述用于字符识别训练模型数据集的获取方法,其特征在于,所述新对象中所述元素位数为3到20位。4.根据权利要求1所述用于字符识别训练模型数据集的获取方法,其特征在于,所述新对象中的元素种类应小于等于所述原对象中的元素种类。5.根据权利要求1

4之一所述用于字符识别训练模型数据集的获取方法,其特征在于,所述元素为特殊符号、标点符号、数字符号、单位符号、希腊文、拉丁文、拼音、注音、...

【专利技术属性】
技术研发人员:杨逸飞刘俊锋邹真冯帆路晨贾刘伟连旭郭亚坤王腾超李云鹏宋佳男
申请(专利权)人:新兴河北工程技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1