当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于自引导进化策略的自动化数据增强方法技术

技术编号:32130221 阅读:44 留言:0更新日期:2022-01-29 19:27
本发明专利技术公开了一种基于自引导进化策略的自动化数据增强方法,首先将自动化数据增强问题建模为数据增强策略的最优化搜索问题,然后定义并设计策略向量与数据增强策略的映射转换关系,最后利用自引导进化策略迭代搜索出最优的数据增强策略。本发明专利技术相比于以前方法,能够取得更好的深度学习模型预测性能。本发明专利技术不仅支持图片数据的数据增强任务,而且支持了音频和文本等媒体数据的数据增强任务。频和文本等媒体数据的数据增强任务。频和文本等媒体数据的数据增强任务。

【技术实现步骤摘要】
一种基于自引导进化策略的自动化数据增强方法


[0001]本专利技术涉及自动化机器学习领域,具体涉及一种自动化数据增强方法,尤其涉及一种基于自引导进化策略的自动化数据增强方法。

技术介绍

[0002]随着机器学习和深度学习等计算机技术的飞速发展,人类社会正在从信息技术时代迈入人工智能(AI)时代。AI正在成为未来产业格局调整和科技革命的重要技术手段,这将会促进传统产业的转型升级,带动更多新兴就业市场的发展。
[0003]数据、算法和算力是AI技术发展的三要素。数据是推动AI技术创新的核心要素,是AI时代最有价值和最重要的数字资源,它决定了AI模型学习的上限。数据规模越大、质量越高,模型就能够拥有更好的泛化能力和鲁棒性。然而在实际需求应用场景中,存在着数据量少、数据获取成本高、样本不均衡等问题。数据增强技术是解决这类问题的一个有效途径。数据增强是在不增加数据量的情况下,从原始数据加工出更强表示能力的数据来提高原始数据的质量。其原理是通过对原始数据融入先验知识,加工出数据的更多潜在表示,更易于网络模型判别数据中存在的统计噪声。另外也可以加强对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自引导进化策略的自动化数据增强方法,包括以下步骤:(1)针对原始数据集类型,设计多种数据增强操作,对所述数据增强操作进行封装,所有数据增强操作构成了算法的搜索空间;(2)定义并设计策略向量与数据增强策略的映射转换关系,所述数据增强策略由多个数据增强操作组成;(3)计算预热阶段所有搜索方向上的策略评估值:在整个搜索空间中对当前探索点附近采样多个搜索方向,使用所述映射转换关系对多个搜索方向上的策略向量值进行转换,对转换后得到的数据增强策略进行评估;(4)收集所有搜索方向上的数据增强策略评估值:收集完所有评估值后,对各个评估值进行降序排序,并保留前b个评估值用于计算估计梯度;(5)更新策略向量:使用所述估计梯度来更新策略向量;(6)重复迭代搜索直至预热阶段结束:重复所述步骤(3)至步骤(5),直至搜索次数达到T
warmup
,结束预热阶段的搜索;(7)生成梯度子空间:将每次迭代所计算的估计梯度进行保存,使用最近k次保存的估计梯度构建梯度矩阵,对梯度矩阵进行分解得到梯度子空间和正交补空间;(8)计算自引导阶段所有搜索方向上的策略评估值:在整个搜索空间中对当前探索点附近进行采样多个搜索方向,采样方式为以α的概率根据梯度子空间的引导和以1

α的概率根据正交补空间的引导来进行采样,然后重复所述步骤(3)至步骤(5);(9)计算自适应采样概率值:使用从所述梯度子空间和所述正交补空间采样得到的搜索方向所反馈的平均评估值来更新自适应采样概率值α;(10)计算更新周期时的策略评估值:当迭代次数为更新次数T
update
的整数倍时,对当前数据增强策略进行评估和保存;(11)重复迭代搜索直至自适应阶段结束:重复所述步骤(7)至步骤(10),直至搜索次数达到指定值,选择步骤(10)中存储的评估值最高的多个数据增强策略集合作为方法的最终输出,并使用所述输出的数据增强策略集合对所述原始数据集进行数据增强,从而实现自动化数据增强。2.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法,其特征在于:所述步骤(1)中,所述原始数据集包括图片、音频和文本数据集,不同数据集对应的数据增强函数的作用、数量和参数范围均不同。3.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法,其特征在于:所述步...

【专利技术属性】
技术研发人员:朱光辉黄宜华陈文忠袁春风
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1