数据生成方法、装置、计算机装置及存储介质制造方法及图纸

技术编号:29200123 阅读:60 留言:0更新日期:2021-07-10 00:34
本发明专利技术提供一种数据生成方法、数据生成装置、计算机装置及计算机存储介质,所述方法包括:获取第一样本数据;确定所述第一样本数据的类型及所述类型对应的数据扩充方式,根据确定的所述数据扩充方式对所述第一样本数据进行扩充,以生成第二样本数据;根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集,其中,所述训练集用于训练一数据模型,所述验证集用于验证训练后的所述数据模型。通过所述方法可以自动生成新的样品数据,从而提升了数据模型特性信息提取的精度。从而提升了数据模型特性信息提取的精度。从而提升了数据模型特性信息提取的精度。

【技术实现步骤摘要】
数据生成方法、装置、计算机装置及存储介质


[0001]本专利技术涉及人工智能
,具体涉及一种数据生成方法、数据生成装置、计算机装置及计算机存储介质。

技术介绍

[0002]在人工智能领域,经常需要训练一个数据模型用来对待识别信息进行识别,所述待识别信息可以包括图像、文字、数字。在数据模型训练过程中,需要获取大量原始数据对数据模型进行训练。因此,原始数据数量的多少直接影响了数据模型中数据的拟合精度、参数设置、算法选择,从而进一步影响了数据模型识别的精度。但是在现实的生产生活中,在一些生产领域,由于环境技术等方面的限制无法获取足够多的原始数据对模型进行训练。例如产品在线检测领域,对于产品量产阶段出现的不良,由于产品的良率高,无法获得足够多的原始数据对所述不良的特征信息进行提取,从而影响了数据模型对所述不良识别的精度。

技术实现思路

[0003]鉴于以上内容,有必要提出一种数据生成方法及装置、计算机装置和计算机存储介质,通过所述方法可以自动生成新的样品数据,从而提升了数据模型特性信息提取的精度。
[0004]本申请的第一方面提供一种数据生成方法,所述方法包括:
[0005]获取第一样本数据;
[0006]确定所述第一样本数据的类型及所述类型对应的数据扩充方式,根据确定的所述数据扩充方式对所述第一样本数据进行扩充,以生成第二样本数据;
[0007]根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集,其中,所述训练集用于训练一数据模型,所述验证集用于验证训练后的所述数据模型。
[0008]优选地,所述根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集的方法包括如下任意一种:
[0009]将所述第一样本数据作为训练集,将所述第二样本数据作为验证集;
[0010]将所述第一样本数据和所述第二样本数据整合成样本数据集,并按照预设比例对样本数据集中的数据进行划分,将第一预设比例的样本数据集中的数据作为训练集,将第二预设比例的样本数据集中数据作为验证集。
[0011]优选地,选择所述数据模型,并利用所述训练集对所述数据模型进行训练,其中所述数据模型用于获取所述训练集中的特征信息;
[0012]利用所述验证集对训练后的数据模型进行验证,根据验证结果确定所述数据模型获取训练集中的特征信息的准确率。
[0013]优选地,所述方法还包括:
[0014]判断所述准确率是否大于预设阈值;
[0015]若大于,则将所述数据模型进行输出;
[0016]若不大于,则对训练集中的数据进行整理后重新对所述数据模型进行训练,其中,所述整理的方法包括如下一种或多种:去除训练集中不具有所述特征信息的数据、重新划分训练集和验证集。
[0017]优选地,所述第一样本数据的类型包括:图像、数字、文字中的一种或多种。
[0018]优选地,所述第一样本数据为图像,所述根据确定的所述数据扩充方式对所述第一样本数据进行扩充,以生成第二样本数据的方法包括如下一种或多种:
[0019]对任一第一样本图像进行至少一次预设角度的旋转,按照所述预设角度每旋转一次,则生成一张第二样本图像;
[0020]对任一第一样本图像进行至少一次预设比例的缩小,按照所述预设比例每缩小一次,则生成一张第二样本图像;
[0021]对任一第一样本图像进行至少一次预设比例的放大,按照所述预设比例每放大一次,则生成一张第二样本图像。
[0022]优选地,所述待处理数据为数字,所述根据确定的所述数据扩充方式对所述第一样本数据进行扩充,以生成第二样本数据的方法包括如下一种或多种:
[0023]对第一样本数字按照预设规则进行分组,对于每组数字取平均值,将所述平均值作为第二样本数字;
[0024]对第一样本数字按照预设规则进行分组,对于每组数字取标准方差值,将所述标准方差值作为第二样本数字。
[0025]本申请的第二方面提供一种数据生成装置,所述装置包括:
[0026]获取模块,用于获取第一样本数据;
[0027]扩充模块,用于确定所述第一样本数据的类型及所述类型对应的数据扩充方式,根据确定的所述数据扩充方式对所述第一样本数据进行扩充,以生成第二样本数据;
[0028]执行模块,用于根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集,其中,所述训练集用于训练一数据模型,所述验证集用于验证训练后的所述数据模型。
[0029]本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前所述数据生成方法。
[0030]本申请的第四方面提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述数据生成方法。
[0031]本专利技术在仅能获取到有限数量的第一样本数据的情况下,根据所述样本数据的类型,选择对应的数据扩充方式利用所述第一样本数据生成第二样本数据,将所述第一样本数据和所述第二样本数据作为样本数据集,根据预设规则将所述样本数据集划分为训练集和验证集,使用训练集对数据模型进行训练,使用验证集对训练后的数据模型进行验证,通过所述方法使得数据模型识别特征信息的精度得到增强。
附图说明
[0032]图1是本专利技术一实施例提供的数据生成方法的应用环境架构示意图。
[0033]图2是本专利技术一实施例提供的数据生成方法流程图。
[0034]图3是本专利技术一实施例提供的数据生成装置的结构示意图。
[0035]图4是本专利技术一实施例提供的计算机装置示意图。
具体实施方式
[0036]为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施例对本专利技术进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0037]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。
[0039]参阅图1所示,为本专利技术实施例一提供的数据生成方法的应用环境架构示意图。
[0040]本专利技术中的数据生成方法应用在计算机装置1中,所述计算机装置1和至少一个电子设备2通过网络建立通信连接。所述电子设备2用于获取第一样本数据,并将获取到的所述第一样本数据通过网络发送至计算机装置1。所述计算机装置1用于接收所述第一样本数据,将所述第一样本数据标记为训练集中的数据,并利用所述第一样本数据生成方法得到验证集中的第二样本数据。所述网络可以是有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据生成方法,其特征在于,所述方法包括:获取第一样本数据;确定所述第一样本数据的类型及所述类型对应的数据扩充方式,根据确定的所述数据扩充方式对所述第一样本数据进行扩充,以生成第二样本数据;根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集,其中,所述训练集用于训练一数据模型,所述验证集用于验证训练后的所述数据模型。2.如权利要求1所述的数据生成方法,其特征在于,所述根据预设规则将所述第一样本数据和所述第二样本数据划分为训练集和验证集的方法包括如下任意一种:将所述第一样本数据作为训练集,将所述第二样本数据作为验证集;将所述第一样本数据和所述第二样本数据整合成样本数据集,并按照预设比例对样本数据集中的数据进行划分,将第一预设比例的样本数据集中的数据作为训练集,将第二预设比例的样本数据集中数据作为验证集。3.如权利要求1所述的数据生成方法,其特征在于,所述方法还包括:选择所述数据模型,并利用所述训练集对所述数据模型进行训练,其中所述数据模型用于获取所述训练集中的特征信息;利用所述验证集对训练后的数据模型进行验证,根据验证结果确定所述数据模型获取训练集中的特征信息的准确率。4.如权利要求3所述的数据生成方法,其特征在于,所述方法还包括:判断所述准确率是否大于预设阈值;若大于,则将所述数据模型进行输出;若不大于,则对训练集中的数据进行整理后重新对所述数据模型进行训练,其中,所述整理的方法包括如下一种或多种:去除训练集中不具有所述特征信息的数据、重新划分训练集和验证集。5.如权利要求1所述的数据生成方法,其特征在于,所述第一样本数据的类型包括:图像、数字、文字中的一种或多种。6.如权利要求5所述的数据生成方法,其特征在于,所述第...

【专利技术属性】
技术研发人员:林忠亿
申请(专利权)人:鸿海精密工业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1