一种用于字符识别训练模型数据集的获取方法技术

技术编号：38586043 阅读：29 留言：0更新日期：2023-08-26 23:28

本发明专利技术提供了一种用于字符识别训练模型数据集的获取方法，包括：元素，用于字符识别的字符；样本，含所述元素的产品；单位时间，生产所述样本需要的时间，所述单位时间为生产批次、分钟、小时、日、月、年中的一种；原对象，由多个所述元素按照任意规则组成的用于字符识别的印记；新对象，由所述原对象中的所述元素重新按照任意规则组成的印记；及，还包括如下方法：选取低于所述单位时间内生产的所述样本；获取所述样本中的原对象；截取所述原对象中的所述元素；将由所述原对象中截取的所述元素，组成所述新对象；将所述新对象组成所述用于字符识别训练模型数据集。通过初期短时间或小批量生产中的数据采集，即可获取符合产品识别的用于字符识别训练模型数据集。用于字符识别训练模型数据集。用于字符识别训练模型数据集。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于字符识别训练模型数据集的获取方法

[0001]本专利技术涉及计算机
，尤其涉及一种用于字符识别训练模型数据集的获取方法。

技术介绍

[0002]目前字符识别模型的训练需要用到数据集，数据集所含字符图片的数量越多，识别率就越高。然而对于一些工业应用场景来说，由于种种条件的限制，使得识别模型在部署初期无法获得大量的字符图片，导致识别率较低，不能较快的投产达效，制约识别设备的判断与准确率。
[0003]如现实中某厂需对产品进行字符识别，根据粗略计算，至少需要生产数以千万计的产品才能获得足够多的字符图片。此方法缺点极其明显：时间周期长，且一旦某个产品的字符被漏检错检，就会造成字符图片的流失，导致数据集内容不齐全，降低识别率。所以亟需一种不必大量生产，只进行小规模生产就可以获得较为齐全的字符图片数据集的方法。这样既减少了资源浪费，节约成本，又可以在短期内提高识别率。

技术实现思路

[0004]本专利技术目的就是利用识别样本中的原对象信息，并进行分解，重新组合成新对象信息，从小规模的生产中获取含有字符图片数量较大的数据集。本专利技术所采用的技术方案为：一种用于字符识别训练模型数据集的获取方法，包括：
[0005]元素，用于字符识别的字符；
[0006]样本，含所述元素的产品；
[0007]单位时间，生产所述样本需要的时间，所述单位时间为生产批次、分钟、小时、日、月、年中的一种；
[0008]原对象，由多个所述元素按照任意规则组成的用于字符识别的印记；
...

【技术保护点】

【技术特征摘要】
1.一种用于字符识别训练模型数据集的获取方法，其特征在于，包括：元素，用于字符识别的字符；样本，含所述元素的产品；单位时间，生产所述样本需要的时间，所述单位时间为生产批次、分钟、小时、日、月、年中的一种；原对象，由多个所述元素按照任意规则组成的用于字符识别的印记；新对象，由所述原对象中的所述元素重新按照任意规则组成的印记；及，还包括如下方法：选取低于所述单位时间内生产的所述样本；获取所述样本中的原对象；截取所述原对象中的所述元素；将由所述原对象中截取的所述元素，组成所述新对象；将所述新对象组成所述用于字符识别训练模型数据集。2.根据权利要求1所述用于字符识别训练模型数据集的获取方法，其特征在于，还包括以下步骤：将所述新对象组成所述用于字符识别训练模型数据集与所述原对象汇总。3.根据权利要求1所述用于字符识别训练模型数据集的获取方法，其特征在于，所述新对象中所述元素位数为3到20位。4.根据权利要求1所述用于字符识别训练模型数据集的获取方法，其特征在于，所述新对象中的元素种类应小于等于所述原对象中的元素种类。5.根据权利要求1
‑
4之一所述用于字符识别训练模型数据集的获取方法，其特征在于，所述元素为特殊符号、标点符号、数字符号、单位符号、希腊文、拉丁文、拼音、注音、...

【专利技术属性】
技术研发人员：杨逸飞，刘俊锋，邹真，冯帆，路晨，贾刘伟，连旭，郭亚坤，王腾超，李云鹏，宋佳男，
申请(专利权)人：新兴河北工程技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人