【技术实现步骤摘要】
【国外来华专利技术】使用基于样本的正则化技术的迁移学习设备和方法
[0001]本公开涉及用于使用基于样本的正则化的迁移学习的设备和方法。更具体地,本公开涉及能够使用基于样本的正则化来微调目标模型的迁移学习设备和方法,该基于样本的正则化增加了训练样本中固有的特征之间的相似性。
技术介绍
[0002]本部分中的陈述仅提供与本公开相关的背景信息,并且不一定构成现有技术。
[0003]迁移学习是深度学习领域中的一个研究领域,其使用针对已经完成学习特定任务的模型获得的知识来训练用于执行类似任务的新模型。迁移学习可以应用于使用基于深度学习的深度神经网络模型的任何领域,并且是用于训练要应用于难以获得足够的训练数据的任务的模型的关键方法之一。
[0004]如图1所示,典型的迁移学习方法通过以下方式来对目标模型100进行微调:通过借用被预先训练以执行源任务的源模型110的结构和参数来初始化用于与源任务类似的目标任务的目标模型100,并且进一步使用特定于目标任务的训练数据来训练目标模型100。
[0005]微调预训练模型具有以下优点:由于采 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于迁移学习设备的目标模型的迁移学习方法,所述方法包括以下步骤:使用所述目标模型从输入样本提取特征并使用所述特征生成将所述输入样本分类为类的输出结果,其中,所述目标模型包括提取所述特征的特征提取器和生成所述输出结果的分类器;使用所述输出结果和与所述输入样本相对应的标签来计算分类损失;基于从属于同一类的输入样本对提取的特征对来计算基于样本的正则化SBR损失;以及基于所述分类损失和所述SBR损失的全部或部分来更新所述目标模型的参数。2.根据权利要求1所述的方法,所述方法还包括以下步骤:由于在梯度朝向所述特征提取器的后向传播时使用梯度减小层将分类损失乘以超参数而减小梯度。3.根据权利要求1所述的方法,其中,基于深度神经网络来实现所述目标模型,并且使用预训练的、基于深度神经网络的源模型的结构和参数来初始化所述目标模型,其中,基于所述源模型的参数来初始化所述特征提取器的参数,并且将所述分类器的参数初始化为随机值。4.根据权利要求1所述的方法,其中,所述分类损失是基于所述输出结果与所述标签之间的相异度计算的,并且所述SBR损失是基于构成所述特征对的两个特征之间的相异度来计算的。5.根据权利要求1所述的方法,其中,更新所述参数的步骤基于所述分类损失来更新所述分类器的参数,并且基于所述分类损失和所述SBR损失来更新所述特征提取器的参数。6.根据权利要求1所述的方法,其中,在针对同一类以小批量为单位训练所述目标模型时,基于从包括在所述小批量中的输入样本提取的特征与从包括在所述小批量中的所有输入样本提取的特征的平均值之间的欧几里德距离的平方来计算所述SBR损失。7.一种包括目标模型的迁移学习设备,所述目标模型包括:特征提取器,所述特征提取器从输入样本提取特征;以及分类器,所述分类器使用所述特征生成将所述输入样本分类为类的输出结果,其中,所述目标模型通过以下方式来训练:使用所...
【专利技术属性】
技术研发人员:崔容硕,全润镐,金智元,朴载善,李守彬,赵东衍,
申请(专利权)人:SK电信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。