一种基于异步梯度下降分布式并行策略的小样本生成扩散模型多目标神经架构搜索方法技术

技术编号：40128259 阅读：9 留言：0更新日期：2024-01-23 21:43

本发明专利技术提出了一种基于异步梯度下降分布式并行策略的小样本生成扩散模型多目标神经架构搜索方法。本发明专利技术将扩散模型的多目标神经架构搜索与分布式并行演化计算相融合，设计了强化差异特征的数据增广方法，快速增加少数类样本数量，改善训练数据集不平衡问题；结合注意力机制、交叉注意力机制、位置编码，实现扩散模型特征提取能力、泛化能力的增强；提出了特征增强小样本生成扩散模型的多目标优化方法，优化扩散模型生成样本质量、多样性和计算复杂度；提出了异步梯度下降分布式并行策略，提升网络的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及扩散模型、演化算法、神经架构搜索算法和分布式并行算法，具体为一种基于异步梯度下降分布式并行策略的小样本生成扩散模型多目标神经架构搜索方法。

技术介绍

1、神经网络模型在训练过程中面临数据集类间不平衡问题和小样本问题，不平衡数据不一定是小样本，大数据也有不平衡问题。不平衡数据分类问题的解决思路包括：基于采样的方法、基于ai的方法以及组合方法。小样本问题的解决思路包括：模型改进法、迁移学习法以及数据增广法。前两者大多以优化ai模型参数为目标，不产生新的样本。基于数据增广的方法与前二者不同，其以数据生成为核心，与使用深度网络模型生成伪样本解决不平衡问题的思路基本一致。

2、不平衡数据问题和小样本学习中存在一个共性支撑策略：数据增广。基于数据扭曲以及基于深度生成模型的数据扩充等是数据增广的主要解决方法。前者对提高模型性能的效果有限，常作为数据预处理的辅助技术。后者适用范围广，是当前研究热点。深度生成模型中的生成对抗网络，极具代表性也最为人所熟知。华东理工大学过弋等人在“fastadaptive meta-learning for few-shot image generation”中，从少量真实样本中快速提取特征，传递给生成对抗网络生成新样本。当前，扩散模型呈现出超越生成对抗网络之势，成为了新的研究热点。斯坦福大学ermon教授等人在“diffusion-decoding models forfew-shot conditional generation”中基于变分自编码器提出了一种具有对比性表征的扩散模型。p

3、针对样本生成，生成对抗网络在特征提取策略、对抗架构上都得到了全面的优化，但是训练过程中的模式崩塌问题无法得到根本解决。生成对抗网络中的对抗训练过程在扩散模型中被剔除，避免了模式崩塌问题，稳定性大幅提升的同时生成效果也更佳，但是扩散模型也在研究中出现了训练计算代价大、模型泛化能力弱等短板。本专利技术提出了具有更强特征提取能力的网络结构，将自注意力机制和位置编码与扩散模型有机结合，提升样本生成的泛化能力。而采用扩散模型的样本生成方法对于运算平台的计算能力也是巨大的考验，本专利技术也提出了多节点并行的分布式解决方案，以缓解单一节点算力的局限性。

技术实现思路

1、本专利技术创新性地将扩散模型的多目标神经架构搜索与分布式并行演化计算相融合，提出了异步梯度下降分布式并行多目标小样本生成扩散模型。具体包括：设计样本平衡方法，混合少数类样本，强化差异特征，增广少数类样本数量；提出扩散模型特征增强模块，将自注意力机制与交叉注意力机制有机结合，利用位置编码还原位置信息，增强扩散模型泛化能力；提出扩散模型多目标优化方法，依据数据特征确立优化目标，利用神经架构搜索优化小样本生成扩散模型结构；设计分布式并行多目标小样本生成扩散模型架构，结合异步梯度下降的分布式并行策略，提升并行节点运行效率。

2、本专利技术的技术方案：

3、一种基于异步梯度下降分布式并行策略的小样本生成扩散模型多目标神经架构搜索方法，包括如下步骤：

4、(1)平衡数据样本

5、神经网络模型训练的数据集中通常存在一些类别的样本数量远超另一些类别几十甚至上百倍，对于这样存在数据不平衡问题的数据集就被称之为不平衡数据集。神经网络模型在推理阶段往往在占据数量优势的多数类上具有更强的性能表现，而样本数量稀少的少数类则表现不佳，拉低整体神经网络模型性能。本专利技术改进不平衡数据集的数据集平衡性的途径是增加少数类样本数量，规避不平衡数据集的小样本问题。首先将各个少数类内部同一类别的样本两两混合，并计算两样本间的差异，叠加于混合后的样本，增强差异化特征，以此方式增广小样本数据，促进数据集的平衡。其公式如下：

6、xnew＝λxi+(1-λ)xj+rand(0,1)(xj-xi),λ∈(0,1) (1)

7、xnew表示新增样本，xi表示少数类中的任意样本，xj表示任意样本xi经聚类后的最近邻。xi和xj以λ为比例混合产生新样本，混合样本继续叠加任意比例的差异((xj-xi))，使差异特征更为显著。

8、(2)特征增强小样本生成扩散模型

9、采用自注意力机制和交叉注意力机制改进小样本生成扩散模型中unet网络的特征提取能力，同时引入相对位置编码还原相对位置信息。

10、使用自注意力机制强化unet编码器结构中的卷积层的特征提取能力；将unet解码器结构中的卷积层替换成交叉注意力机制，使用交叉注意力机制过滤非语义信息，实现精细空间恢复；由于注意力机制的引入，输入数据被分割成多个patch进行特征提取，但分割操作会导致位置信息的缺失；为还原多个patch之间的位置信息，在unet结构中每一次池化和上采样后均进行相对位置编码。

11、(3)多目标优化

12、采用样本质量、样本多样性和计算复杂度作为特征增强小样本生成扩散模型的优化目标，通过多目标神经网络架构搜索对小样本生成扩散模型的网络结构进行优化；

13、1)优化目标

14、①样本质量

15、使用特征增强小样本生成扩散模型生成少数类样本，要求新产生的少数类样本和原有同一类别样本拥有相同的特征；采用fid指标作为生成样本质量的衡量指标，fid值越小，样本质量越佳。

16、②样本多样性

17、本专利技术通过平衡数据样本以及特征增强小样本生成扩散模型生成少数类样本这两种数据增广方法解决ai模型训练过程中的数据不平衡问题，为防止生成多个相同样本，后者产生少数类样本的过程中需要评估样本多样性，评估公式如下：

18、

19、式中，fdiv表示多样性函数；x为新生成的少数类样本；pg表示所有新生成的少数类样本；xreal为原始训练样本中的任意样本；p(y|x)表示新生成的少数类样本x属于各类别的概率；p(y)表示所有新生成的少数类样本属于各类别的概率的平均值；dkl表示kl散度；表示对所有的新生成的样本求平均值；o(x)表示图像x特征提取后的位置编码。

20、fdiv多样性函数将is指标与伪样本的空间位置关系相结合，规避is指标无法检测特征空间关系的缺陷，fdiv值越大则样本多样性越好。

21、③计算复杂度

22、小样本生成扩散模型的计算复杂度制约着算法的运行效率，本专利技术采用flops指标衡量小样本生成扩散模型的计算复杂度，flops值越大计算复杂度越高。

23、2)多目标神经架构搜索

24、①搜索空间

25、为了增强小样本生成扩散模型的特征提取能力，扩散模型中的unet网络采用了自注意力机制模块和交叉注意力机制模块，针对自注意力机制模块本文档来自技高网...

【技术保护点】

1.一种基于异步梯度下降分布式并行策略的小样本生成扩散模型多目标神经架构搜索方法，其特征在于，包括如下步骤：

【技术特征摘要】

1.一种基于异步梯度下降分布式并行策略的小样本生成扩散...

【专利技术属性】
技术研发人员：曹斌，徐迪凯，柳鑫，李耘，申人升，常玉春，
申请(专利权)人：河北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人