数据生成方法、装置、计算机装置及存储介质制造方法及图纸

技术编号：29200123 阅读：60 留言：0更新日期：2021-07-10 00:34

本发明专利技术提供一种数据生成方法、数据生成装置、计算机装置及计算机存储介质，所述方法包括：获取第一样本数据；确定所述第一样本数据的类型及所述类型对应的数据扩充方式，根据确定的所述数据扩充方式对所述第一样本数据进行扩充，以生成第二样本数据；根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集，其中，所述训练集用于训练一数据模型，所述验证集用于验证训练后的所述数据模型。通过所述方法可以自动生成新的样品数据，从而提升了数据模型特性信息提取的精度。从而提升了数据模型特性信息提取的精度。从而提升了数据模型特性信息提取的精度。

全部详细技术资料下载

【技术实现步骤摘要】
数据生成方法、装置、计算机装置及存储介质

[0001]本专利技术涉及人工智能
，具体涉及一种数据生成方法、数据生成装置、计算机装置及计算机存储介质。

技术介绍

[0002]在人工智能领域，经常需要训练一个数据模型用来对待识别信息进行识别，所述待识别信息可以包括图像、文字、数字。在数据模型训练过程中，需要获取大量原始数据对数据模型进行训练。因此，原始数据数量的多少直接影响了数据模型中数据的拟合精度、参数设置、算法选择，从而进一步影响了数据模型识别的精度。但是在现实的生产生活中，在一些生产领域，由于环境技术等方面的限制无法获取足够多的原始数据对模型进行训练。例如产品在线检测领域，对于产品量产阶段出现的不良，由于产品的良率高，无法获得足够多的原始数据对所述不良的特征信息进行提取，从而影响了数据模型对所述不良识别的精度。

技术实现思路

[0003]鉴于以上内容，有必要提出一种数据生成方法及装置、计算机装置和计算机存储介质，通过所述方法可以自动生成新的样品数据，从而提升了数据模型特性信息提取的精度。
[0004]本申请的第一方面提供一种数据生成方法，所述方法包括：
[0005]获取第一样本数据；
[0006]确定所述第一样本数据的类型及所述类型对应的数据扩充方式，根据确定的所述数据扩充方式对所述第一样本数据进行扩充，以生成第二样本数据；
[0007]根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集，其中，所述训练集用于训练一数据模型，所述验证集用于验证训...

【技术保护点】

【技术特征摘要】
1.一种数据生成方法，其特征在于，所述方法包括：获取第一样本数据；确定所述第一样本数据的类型及所述类型对应的数据扩充方式，根据确定的所述数据扩充方式对所述第一样本数据进行扩充，以生成第二样本数据；根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集，其中，所述训练集用于训练一数据模型，所述验证集用于验证训练后的所述数据模型。2.如权利要求1所述的数据生成方法，其特征在于，所述根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集的方法包括如下任意一种：将所述第一样本数据作为训练集，将所述第二样本数据作为验证集；将所述第一样本数据和所述第二样本数据整合成样本数据集，并按照预设比例对样本数据集中的数据进行划分，将第一预设比例的样本数据集中的数据作为训练集，将第二预设比例的样本数据集中数据作为验证集。3.如权利要求1所述的数据生成方法，其特征在于，所述方法还包括：选择所述数据模型，并利用所述训练集对所述数据模型进行训练，其中所述数据模型用于获取所述训练集中的特征信息；利用所述验证集对训练后的数据模型进行验证，根据验证结果确定所述数据模型获取训练集中的特征信息的准确率。4.如权利要求3所述的数据生成方法，其特征在于，所述方法还包括：判断所述准确率是否大于预设阈值；若大于，则将所述数据模型进行输出；若不大于，则对训练集中的数据进行整理后重新对所述数据模型进行训练，其中，所述整理的方法包括如下一种或多种：去除训练集中不具有所述特征信息的数据、重新划分训练集和验证集。5.如权利要求1所述的数据生成方法，其特征在于，所述第一样本数据的类型包括：图像、数字、文字中的一种或多种。6.如权利要求5所述的数据生成方法，其特征在于，所述第...

【专利技术属性】
技术研发人员：林忠亿，
申请(专利权)人：鸿海精密工业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人