一种训练数据集生成的方法、装置、设备及介质制造方法及图纸

技术编号：40110021 阅读：7 留言：0更新日期：2024-01-23 19:01

本发明专利技术涉及数据增强领域，提出了一种训练数据集生成的方法、装置、设备及介质，方法包括：对原始图像数据进行预处理，得到只包含文本数据的文本数据集；对所述文本数据集按行对每一行数据标注对应的文本框，得到所述文本框的位置坐标；基于所述原始图像和所述文本框的位置坐标生成若干新的位置坐标；基于所述新的位置坐标的文本框所对应的文本数据或原始图像数据生成训练数据集。本发明专利技术的方法减少了逐一对文本框标注的时间成本，在不改变对文本框标注的精确度的条件下提高训练数据集生成效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据增强领域，尤其涉及一种训练数据集生成的方法、装置、设备及介质。

技术介绍

1、随着计算机视觉文本识别技术的发展，文本识别大范围应用在各个领域中。对于变动性较大或者文字较小的文本，想要获得准确的识别结果，需要通过海量拍照以获取训练集。对于海量的图像处理，每一个图像均需要手动逐行打标来构建训练数据集，降低了构建训练数据集的效率，不利于后续文本识别的效率提高。

技术实现思路

1、有鉴于此，本专利技术提出了一种训练数据集生成的方法、装置、设备及介质，至少解决了对于海量的图像处理，每一个图像均需要手动逐行打标来构建训练数据集，降低了构建训练数据集的效率，不利于后续文本识别的效率提高的问题。

2、基于以上目的，本专利技术的实施例的一个方面提供了一种训练数据集生成的方法，包括：对原始图像数据进行预处理，得到只包含文本数据的文本数据集；对所述文本数据集按行对每一行数据标注对应的文本框，得到所述文本框的位置坐标；基于所述原始图像和所述文本框的位置坐标生成若干新的位置坐标；基于所述新的位置坐标的文本框所对应的文本数据或原始图像数据生成训练数据集。

3、在一些实施例中，所述基于所述原始图像和所述文本框的位置坐标生成若干新的位置坐标的步骤包括：

4、基于所述原始图像的大小以及所述文本框的大小设置第一阈值；

5、对所述文本框的位置坐标随机添加不大于所述第一阈值的整数，得到若干新的位置坐标。

6、在一些实施例中，所述基于所述原始图像

7、在一些实施例中，所述对所述文本框的位置坐标随机添加不大于所述第一阈值的整数，得到新的位置坐标的步骤包括：对所述文本框的位置坐标随机添加服从均匀分布且不大于所述第一阈值的整数，得到新的位置坐标。

8、在一些实施例中，所述对原始图像数据进行预处理，得到只包含文本数据的文本数据集的步骤包括：通过对原始图像数据进行边缘检测删除所述原始图像数据中的非文本内容，得到只包括文本数据的文本数据集。

9、在一些实施例中，所述基于所述原始图像和所述文本框的位置坐标生成若干新的位置坐标的步骤包括：基于所述文本数据集对应的文本框的位置坐标设置对所述原始图像数据对应的图像进行裁剪的可裁剪区域，并在所述可裁剪区域中随机生成若干裁剪坐标；其中，所述基于所述文本数据集对应的文本框的位置坐标设置对所述原始图像数据对应的图像进行裁剪的可裁剪区域包括：遍历所述文本数据集对应的文本框的位置坐标，得到位置坐标最大值和最小值，基于所述位置坐标最大值和最小值得到文本框区域范围；基于所述文本框区域范围设置对所述原始图像数据对应的图像进行裁剪的可裁剪区域。

10、在一些实施例中，所述基于所述新的位置坐标的文本框所对应的文本数据或原始图像数据生成训练数据集的步骤包括：基于所述裁剪坐标对所述原始图像数据对应的图像进行裁剪得到新的图像数据；基于所述新的图像数据获取所述位置坐标下的文本框对应的新的文本数据，以生成训练数据集。

11、本专利技术实施例的另一方面，还提供了一种训练数据集生成的装置，包括：第一模块，用于对原始图像数据进行预处理，得到只包含文本数据的文本数据集；第二模块，用于对所述文本数据集按行对每一行数据标注对应的文本框，得到所述文本框的位置坐标；第三模块，用于基于所述原始图像和所述文本框的位置坐标生成若干新的位置坐标；第四模块，用于基于所述新的位置坐标的文本框所对应的文本数据或原始图像数据生成训练数据集。

12、本专利技术实施例的另一方面，还提供了一种电子设备，包括至少一个处理器；以及存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行时实现上述方法的步骤。

13、本专利技术实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有被处理器执行时实现如上述方法步骤的计算机程序。

14、本专利技术至少具有以下有益效果：本专利技术提出的一种训练数据集生成的方法通过对文本框不规则微型重构，特定区域裁剪以及文本框的重定位，减少了逐一对文本框标注的时间成本，在不改变对文本框标注的精确度的条件下提高训练数据集生成效率。

本文档来自技高网...

【技术保护点】

1.一种训练数据集生成的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述原始图像和所述文本框的位置坐标生成若干新的位置坐标的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述原始图像的大小以及所述文本框的大小设置第一阈值的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述文本框的位置坐标随机添加不大于所述第一阈值的整数，得到新的位置坐标的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述对原始图像数据进行预处理，得到只包含文本数据的文本数据集的步骤包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述原始图像和所述文本框的位置坐标生成若干新的位置坐标的步骤包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述新的位置坐标的文本框所对应的文本数据或原始图像数据生成训练数据集的步骤包括：

8.一种训练数据集生成的装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可

...

【技术特征摘要】

1.一种训练数据集生成的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述原始图像和所述文本框的位置坐标生成若干新的位置坐标的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述原始图像的大小以及所述文本框的大小设置第一阈值的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述文本框的位置坐标随机添加不大于所述第一阈值的整数，得到新的位置坐标的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述对原始图像数据进行预处理，得到只包含文本数...

【专利技术属性】
技术研发人员：翁娜，徐同明，王思源，李伯钊，鹿海洋，薛善烨，
申请(专利权)人：浪潮通用软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人