【技术实现步骤摘要】
基于动态联合分布对齐的分类模型建立方法及其应用
本专利技术属于域适应领域,更具体地,涉及一种基于动态联合分布对齐的分类模型建立方法及其应用。
技术介绍
传统的分类问题要求训练集和测试集的数据是独立同分布的,且训练集数据丰富有利于分类器的训练和性能提升。随着网络技术的不断发展,我们进入了大数据时代,每天每时都会产生大量的信息数据,使得分类器可以依赖这些数据不断的训练和更新模型,极大地提高了分类器的性能。但是,这些数据中却很少有完善的数据标注,这提升了分类器的训练的困难程度,而人工标注数据又十分耗费人力物力,给机器学习和深度学习的模型训练和更新带来了新的挑战,该问题在图像分类和文本分类任务中尤为明显。为了解决这个问题,迁移学习应运而生。域适应方法是迁移学习的一大类子问题,针对训练集数据不足的问题,寻找一个相似的、有标注的数据集来帮助待分类数据集训练分类器,从而可以准确地为数据集进行分类。域适应方法的关键在于利用数据集的相似性,减少数据集间的差异。进一步地,减少数据集差异的关键之一就在于差异的度量方式。常见的度量方式有两种 ...
【技术保护点】
1.一种基于动态联合分布对齐的分类模型建立方法,其特征在于,包括如下步骤:/n(S1)分别为已标注类别标签的源域数据集和未标注类别标签的目标域数据集中的各样本赋予权重,使得加权后两个数据集的类别分布相同;两个数据集的特征空间和标签空间相同,但边缘分布和条件分布不同;所述目标域数据集属于目标分类任务,所述目标分类任务为图像分类任务或文本分类任务;/n(S2)将两个数据集中的样本输入联合分布对齐模型,并计算相应的损失;所述联合分布对齐模型包括基于对抗的边缘分布对齐网络和条件分布对齐网络,所述边缘分布对齐网络包括一个特征提取器和一个特征判别器,所述条件分布对齐网络包括一个分类器和 ...
【技术特征摘要】 【专利技术属性】
1.一种基于动态联合分布对齐的分类模型建立方法,其特征在于,包括如下步骤:
(S1)分别为已标注类别标签的源域数据集和未标注类别标签的目标域数据集中的各样本赋予权重,使得加权后两个数据集的类别分布相同;两个数据集的特征空间和标签空间相同,但边缘分布和条件分布不同;所述目标域数据集属于目标分类任务,所述目标分类任务为图像分类任务或文本分类任务;
(S2)将两个数据集中的样本输入联合分布对齐模型,并计算相应的损失;所述联合分布对齐模型包括基于对抗的边缘分布对齐网络和条件分布对齐网络,所述边缘分布对齐网络包括一个特征提取器和一个特征判别器,所述条件分布对齐网络包括一个分类器和一个类别判别器,所述特征提取器用于提取输入样本的特征,所述特征判别器用于判断所述特征提取器提取的特征来自于哪一个数据集,所述分类器用于对所述特征提取器提取的特征进行分类以产生相应的类别标签,所述类别判别器用于判断所述分类器产生的类别标签来自于哪一个数据集;
(S3)根据所计算的损失更新所述联合分布对齐模型后,利用所述特征提取器和所述分类器为所述目标域数据集中的样本标注伪标签,并基于该标注结果更新所述目标域数据集中各样本的权重;
(S4)重复执行步骤(S2)~(S3)以对所述联合分布对齐模型进行迭代训练,直至达到预设的迭代终止条件;迭代终止后,利用所述特征提取器和所述分类器相连构成对所述目标分类任务进行分类的分类模型。
2.如权利要求1所述的基于动态联合分布对齐的分类模型建立方法,其特征在于,所述步骤(S2)中,所计算的损失包括生成部分损失Gen_loss和判别部分损失Dis_loss,计算表达式如下:
Gen_loss=LCla+αLFea
其中,LCla是所述分类器的损失,LFea是所述特征提取器的损失,是所述特征判别器的损失,是所述类别判别器的损失;α表示生成部分损失Gen_loss中LFea的权重,k表示所述源域数据集与所述目标域数据集之间的边缘分布距离对条件分布距离的影响因子,μ表示所述源域数据集与所述目标域数据集的条件分布对齐权重。
3.如权利要求2所述的基于动态联合分布对齐的分类模型建立方法,其特征在于,
其中,dC和dM分别表示所述条件分布距离和所述边缘分布距离。
技术研发人员:李玉华,苑雨萌,李瑞轩,辜希武,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。