一种数据处理方法及装置制造方法及图纸

技术编号:27744269 阅读:14 留言:0更新日期:2021-03-19 13:38
本申请实施例涉及一种数据处理方法,方法包括:获取原始数据集;采用平均端口杰森香农散度得到第一指标;将原始数据集中的数据输入至生成对抗网络并生成第一扩充数据;结合第一扩充数据以及原始数据集中的数据,并采用平均端口杰森香农散度得到第二指标;当第二指标大于第一指标时,将第一扩充数据添至原始数据集中,得到第一数据集;用第一数据集替换原始数据集。通过上述方法,可以持续获取多样性数据,并且得到完备多样的数据集。同时得到的完备的训练数据集,可以有效地提高了网络模型的泛化能力。

【技术实现步骤摘要】
一种数据处理方法及装置
本申请涉及人工智能领域,尤其涉及一种基于生成对抗网络持续获取多样性数据的数据处理方法及装置。
技术介绍
目前,基于机器学习的图像识别技术,通过对大量的样本图像进行训练,以获得具有广泛识别功能的网络模型。但是,在实际训练过程中,可能存在某些类别收集到的图像数量相对较少,不能够全面反映出这些类别的信息。然而采用某些类别数量较为稀少的样本图像对网络模型进行训练,所训练处的模型准确度又偏低,迁移能力也较弱。一个模型的精度与鲁棒性跟训练数据是紧密相关的,但是采用人工标注持续获取数据的方式成本很高,并且效率较低。传统的数据增强方式有对图像的简单缩放、以图像为中心点做指定大小的裁剪操作、对图像进行随机的水平或垂直的翻转等方式。通过传统的数据增强方式可以扩充样本数量,但是扩增后的数据很可能具较多冗余数据。目前的图像增强方式主要用于特定的任务场景,其中,图像增强是增强图像中的有用信息,其目的是针对给定图像的应用场合,改善图像的视觉效果,加强图像判读和识别效果,满足某些特殊分析的需要。针对目前的图像增强方式,对于持续生成的数据在数据冗余性方面仍存在缺陷。
技术实现思路
本申请实施例提供了一种获取多样性数据的方法及装置。可以持续获取到具有多样性的数据,并不断扩充原始数据集,从而可以得到完备多样的数据集第一方面,提供了一种数据处理的方法,方法包括:获取原始数据集;采用平均端口杰森香农散度评估原始数据集,得到第一指标,第一指标用于表示原始数据集的多样性;将原始数据集中的数据输入至生成对抗网络(generativeadversarialnetworks,GAN)并生成第一扩充数据;结合第一扩充数据以及原始数据集中的数据,并采用平均端口杰森香农散度进行评估,得到第二指标,第二指标用于表示结合第一扩充数据后原始数据集的多样性;当第二指标大于第一指标时,将第一扩充数据添至原始数据集中,得到第一数据集;用第一数据集替换原始数据集。其中,平均端口杰森香农散度(meaninceptionjensen-shannon,Mean_Inception_JS)表示计算数据集中每个数据平均的端口杰森香农散度,即该数据集中各个数据之间的平均距离,以体现数据集的多样性是否丰富。JS散度也称JS距离,用于衡量两个概率分布差别的对称性度量。GAN是一种深度学习模型,通常情况下用于数据的生成,生成的数据用与真实数据极为相似,并用来做数据增强。在一个可能的实施方式中,在得到第一指标之后,方法还包括:对原始数据集的数据进行特征提取;采用局部离群点因子(localoutlierfactor,LOF)算法检测特征提取后的原始数据集的数据,得到离群点集;将离群点集中的数据输入至GAN并生成第一扩充数据。其中,在特征空间中,离群点与其最近邻之间的邻近性显著偏离数据集中其它数据与它们自己的最近邻之间的邻近性;离群点集则为所有离群点的集合。在一个可能的实施方式中,生成对抗网络GAN采用的损失函数具有多个参数,其中,参数包括端口杰森香农散度和核最大平均差异。其中,端口杰森香农散度(inceptionjensen-shannondivergence,Inception_JS)为利用端口(inception)网络将数据映射到类别空间,并在该类别空间下采用杰森香农(jensen-shannon)散度(divergence)来度量数据之间的距离。核最大化平均差异(kernelmaximummeandiscrepancy,Kernel_MMD)是采用核函数计算最大化平均差异,其用于判断两个分布之间的相似程度;而数据集在特征空间的维数较高,而其求解仅用到内积,在低维空间恰好存在某一函数等于在高维空间的内积,则为了简化计算,可以采用该函数直接进行计算,该函数即为核函数。在一个可能的实施方式中,方法还包括:针对原始数据集中具有的标签,从公开数据集中引入具有相同标签的数据;对具有相同标签的公开数据集中的数据进行特征提取;结合具有相同标签的公开数据集中的数据以及原始数据集中的数据,并采用平均端口杰森香农散度进行评估,得到第三指标,第三指标用于表示结合具有相同标签的公开数据集中的数据后原始数据集的多样性;当第三指标大于第一指标时,将具有相同标签的公开数据集中的数据作为第二扩充数据。在一个可能的实施方式中,具有相同标签包括:公开数据集中的标签与原始数据集中的标签相同;或公开数据集中的标签属于原始数据集中的标签的子集。在一个可能的实施方式中,方法还包括:将第二扩充数据添加至原始数据集中,得到第二数据集;用第二数据集替换原始数据集。在一个可能的实施方式中,方法还包括:对第二扩充数据采用GAN生成第三扩充数据;结合第三扩充数据以及原始数据集中的数据,并采用平均端口杰森香农散度进行评估,得到第四指标,第四指标用于表示结合第三扩充数据后原始数据集的多样性;当第四指标大于第一指标时,将第三扩充数据添加至原始数据集中,得到第三数据集;用第三数据集替换原始数据集。在一个可能的实施方式中,原始数据集、第一数据集、第二数据集和/或第三数据集中数据的数据类型为图片类型。第二方面,提供了一种数据处理装置,装置包括:获取模块,用于获取原始数据集;评估模块,用于采用平均端口杰森香农散度评估原始数据集,得到第一指标,第一指标用于表示原始数据集的多样性;第一生成模块,用于将原始数据集中的数据输入至生成对抗网络GAN并生成第一扩充数据;评估模块还用于,结合第一扩充数据以及原始数据集中的数据,并采用平均端口杰森香农散度进行评估得到第二指标,第二指标用于表示结合第一扩充数据后原始数据集的多样性;添加模块,用于当第二指标大于第一指标时,将第一扩充数据添加至原始数据集中,得到第一数据集;替换模块,用于用第一数据集替换原始数据集。在一个可能的实施方式中,装置还包括:特征提取模块,用于对原始数据集的数据进行特征提取;检测模块,用于采用局部离群点因子LOF算法检测特征提取后的原始数据集的数据,得到离群点集;第一生成模块还用于,将离群点集中的数据输入至GAN并生成第一扩充数据。在一个可能的实施方式中,第一生成模块包括:生成对抗网络GAN;GAN采用的损失函数具有多个参数,其中,参数包括端口杰森香农散度和核最大平均差异。在一个可能的实施方式中,装置还包括:引入模块,用于针对原始数据集中具有的标签,从公开数据集中引入具有相同标签的数据;特征提取模块还用于,对具有相同标签的公开数据集中的数据进行特征提取;评估模块还用于,结合具有相同标签的公开数据集中的数据以及原始数据集中的数据,并采用平均端口杰森香农散度进行评估,得到第三指标,第三指标用于表示结合具有相同标签的公开数据集中的数据后原始数据集的多样性;第二生成模块,用于当第三指标大于第一指标时,将具有相同标签的公开数据集中的数据作为第二扩充数据。在一个可能的实施方式中,具有相同标签包括:公开数据集中的标签与原始数据集中的标签相同;或公开数据集中的标签属于原始数据集中的标签的子集。在一个可能的实本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取原始数据集;/n采用平均端口杰森香农散度评估所述原始数据集,得到第一指标,所述第一指标用于表示所述原始数据集的多样性;/n将所述原始数据集中的数据输入至生成对抗网络GAN并生成第一扩充数据;/n结合所述第一扩充数据以及所述原始数据集中的数据,并采用所述平均端口杰森香农散度进行评估,得到第二指标,所述第二指标用于表示结合所述第一扩充数据后所述原始数据集的多样性;/n当所述第二指标大于所述第一指标时,将所述第一扩充数据添至所述原始数据集中,得到第一数据集;/n用所述第一数据集替换所述原始数据集。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取原始数据集;
采用平均端口杰森香农散度评估所述原始数据集,得到第一指标,所述第一指标用于表示所述原始数据集的多样性;
将所述原始数据集中的数据输入至生成对抗网络GAN并生成第一扩充数据;
结合所述第一扩充数据以及所述原始数据集中的数据,并采用所述平均端口杰森香农散度进行评估,得到第二指标,所述第二指标用于表示结合所述第一扩充数据后所述原始数据集的多样性;
当所述第二指标大于所述第一指标时,将所述第一扩充数据添至所述原始数据集中,得到第一数据集;
用所述第一数据集替换所述原始数据集。


2.如权利要求1所述的方法,其特征在于,在所述得到第一指标之后,所述方法还包括:
对所述原始数据集的数据进行特征提取;
采用局部离群点因子LOF算法检测特征提取后的所述原始数据集的数据,得到离群点集;
将所述离群点集中的数据输入至GAN并生成所述第一扩充数据。


3.如权利要求1或2所述的方法,其特征在于,所述生成对抗网络GAN采用的损失函数具有多个参数,其中,所述多个参数包括端口杰森香农散度和核最大平均差异。


4.如权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述原始数据集中具有的标签,从公开数据集中引入具有相同标签的数据;
对具有相同标签的所述公开数据集中的数据进行特征提取;
结合所述具有相同标签的所述公开数据集中的数据以及所述第一数据集中的数据,并采用所述平均端口杰森香农散度进行评估,得到第三指标,所述第三指标用于表示结合具有相同标签的所述公开数据集中的数据后所述第一数据集的多样性;
当所述第三指标大于所述第一指标时,将具有相同标签的所述公开数据集中的数据作为第二扩充数据。


5.如权利要求4所述的方法,所述具有相同标签包括:
所述公开数据集中的标签与所述原始数据集中的标签相同;或
所述公开数据集中的标签属于所述原始数据集中的标签的子集。


6.如权利要求4或5所述的方法,其特征在于,所述方法还包括:
将所述第二扩充数据添加至所述原始数据集中,得到所述第二数据集;
用所述第二数据集替换所述原始数据集。


7.如权利要求4或5所述的方法,其特征在于,所述方法还包括:
对所述第二扩充数据采用所述GAN生成第三扩充数据;
结合所述第三扩充数据以及所述原始数据集中的数据,并采用所述平均端口杰森香农散度进行评估,得到第四指标,所述第四指标用于表示结合所述第三扩充数据后所述原始数据集的多样性;
当所述第四指标大于所述第一指标时,将所述第三扩充数据添加至所述原始数据集中,得到第三数据集;
用所述第三数据集替换所述原始数据集。


8.如权利要求1-7任一所述的方法,其特征在于,所述原始数据集、所述第一数据集、所述第二数据集和/或所述第三数据集中数据的数据类型为图片类型。


9.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取原始数据集;
评估模块,用于采用平均端口杰森香农散度评估所述原始数据集,得到第一指标,所述第一指标用于表示所述原始数据集的多样性;
第一生成模块,用于将所述原始数据集中的数据输入至生成对抗网络GAN并生成第一扩充数据;
所述评估模块还用于,结合所述第一扩充数据以...

【专利技术属性】
技术研发人员:陈雷应江勇高聪立
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1