一种数据处理方法及装置制造方法及图纸

技术编号：27744269 阅读：14 留言：0更新日期：2021-03-19 13:38

本申请实施例涉及一种数据处理方法，方法包括：获取原始数据集；采用平均端口杰森香农散度得到第一指标；将原始数据集中的数据输入至生成对抗网络并生成第一扩充数据；结合第一扩充数据以及原始数据集中的数据，并采用平均端口杰森香农散度得到第二指标；当第二指标大于第一指标时，将第一扩充数据添至原始数据集中，得到第一数据集；用第一数据集替换原始数据集。通过上述方法，可以持续获取多样性数据，并且得到完备多样的数据集。同时得到的完备的训练数据集，可以有效地提高了网络模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法及装置
本申请涉及人工智能领域，尤其涉及一种基于生成对抗网络持续获取多样性数据的数据处理方法及装置。
技术介绍
目前，基于机器学习的图像识别技术，通过对大量的样本图像进行训练，以获得具有广泛识别功能的网络模型。但是，在实际训练过程中，可能存在某些类别收集到的图像数量相对较少，不能够全面反映出这些类别的信息。然而采用某些类别数量较为稀少的样本图像对网络模型进行训练，所训练处的模型准确度又偏低，迁移能力也较弱。一个模型的精度与鲁棒性跟训练数据是紧密相关的，但是采用人工标注持续获取数据的方式成本很高，并且效率较低。传统的数据增强方式有对图像的简单缩放、以图像为中心点做指定大小的裁剪操作、对图像进行随机的水平或垂直的翻转等方式。通过传统的数据增强方式可以扩充样本数量，但是扩增后的数据很可能具较多冗余数据。目前的图像增强方式主要用于特定的任务场景，其中，图像增强是增强图像中的有用信息，其目的是针对给定图像的应用场合，改善图像的视觉效果，加强图像判读和识别效果，满足某些特殊分析的需要。针对目前的图像增强方式，对于持续生成的数据在数据冗余性方面仍存在缺陷。
技术实现思路
本申请实施例提供了一种获取多样性数据的方法及装置。可以持续获取到具有多样性的数据，并不断扩充原始数据集，从而可以得到完备多样的数据集第一方面，提供了一种数据处理的方法，方法包括：获取原始数据集；采用平均端口杰森香农散度评估原始数据集，得到第一指标，第一指标用于表示原始数据集的多样性；将原始数据集中的数据输入至生成...

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：/n获取原始数据集；/n采用平均端口杰森香农散度评估所述原始数据集，得到第一指标，所述第一指标用于表示所述原始数据集的多样性；/n将所述原始数据集中的数据输入至生成对抗网络GAN并生成第一扩充数据；/n结合所述第一扩充数据以及所述原始数据集中的数据，并采用所述平均端口杰森香农散度进行评估，得到第二指标，所述第二指标用于表示结合所述第一扩充数据后所述原始数据集的多样性；/n当所述第二指标大于所述第一指标时，将所述第一扩充数据添至所述原始数据集中，得到第一数据集；/n用所述第一数据集替换所述原始数据集。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：
获取原始数据集；
采用平均端口杰森香农散度评估所述原始数据集，得到第一指标，所述第一指标用于表示所述原始数据集的多样性；
将所述原始数据集中的数据输入至生成对抗网络GAN并生成第一扩充数据；
结合所述第一扩充数据以及所述原始数据集中的数据，并采用所述平均端口杰森香农散度进行评估，得到第二指标，所述第二指标用于表示结合所述第一扩充数据后所述原始数据集的多样性；
当所述第二指标大于所述第一指标时，将所述第一扩充数据添至所述原始数据集中，得到第一数据集；
用所述第一数据集替换所述原始数据集。

2.如权利要求1所述的方法，其特征在于，在所述得到第一指标之后，所述方法还包括：
对所述原始数据集的数据进行特征提取；
采用局部离群点因子LOF算法检测特征提取后的所述原始数据集的数据，得到离群点集；
将所述离群点集中的数据输入至GAN并生成所述第一扩充数据。

3.如权利要求1或2所述的方法，其特征在于，所述生成对抗网络GAN采用的损失函数具有多个参数，其中，所述多个参数包括端口杰森香农散度和核最大平均差异。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：
针对所述原始数据集中具有的标签，从公开数据集中引入具有相同标签的数据；
对具有相同标签的所述公开数据集中的数据进行特征提取；
结合所述具有相同标签的所述公开数据集中的数据以及所述第一数据集中的数据，并采用所述平均端口杰森香农散度进行评估，得到第三指标，所述第三指标用于表示结合具有相同标签的所述公开数据集中的数据后所述第一数据集的多样性；
当所述第三指标大于所述第一指标时，将具有相同标签的所述公开数据集中的数据作为第二扩充数据。

5.如权利要求4所述的方法，所述具有相同标签包括：
所述公开数据集中的标签与所述原始数据集中的标签相同；或
所述公开数据集中的标签属于所述原始数据集中的标签的子集。

6.如权利要求4或5所述的方法，其特征在于，所述方法还包括：
将所述第二扩充数据添加至所述原始数据集中，得到所述第二数据集；
用所述第二数据集替换所述原始数据集。

7.如权利要求4或5所述的方法，其特征在于，所述方法还包括：
对所述第二扩充数据采用所述GAN生成第三扩充数据；
结合所述第三扩充数据以及所述原始数据集中的数据，并采用所述平均端口杰森香农散度进行评估，得到第四指标，所述第四指标用于表示结合所述第三扩充数据后所述原始数据集的多样性；
当所述第四指标大于所述第一指标时，将所述第三扩充数据添加至所述原始数据集中，得到第三数据集；
用所述第三数据集替换所述原始数据集。

8.如权利要求1-7任一所述的方法，其特征在于，所述原始数据集、所述第一数据集、所述第二数据集和/或所述第三数据集中数据的数据类型为图片类型。

9.一种数据处理装置，其特征在于，所述装置包括：
获取模块，用于获取原始数据集；
评估模块，用于采用平均端口杰森香农散度评估所述原始数据集，得到第一指标，所述第一指标用于表示所述原始数据集的多样性；
第一生成模块，用于将所述原始数据集中的数据输入至生成对抗网络GAN并生成第一扩充数据；
所述评估模块还用于，结合所述第一扩充数据以...

【专利技术属性】
技术研发人员：陈雷，应江勇，高聪立，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人