【技术实现步骤摘要】
一种基于多模型融合的特征蒸馏方法、系统、设备和介质
[0001]本专利技术涉及人工智能领域,尤其涉及一种基于多模型融合的特征蒸馏方法、系统、设备和介质。
技术介绍
[0002]模型压缩以及知识提取是模型部署中关键的步骤,其中以模型蒸馏为主的训练方法被大家广泛使用,主流的模型蒸馏方法会预先训练一个大模型(教师模型),在分类层计算各个类别的概率,以这个概率分布作为“暗知识”,利用KL散度的距离度量指导小模型(学生模型)学习到大模型的知识.
[0003]在人脸识别任务中,此方法面临如下几个问题:人脸识别任务类别数巨大,会造成教师模型中的暗知识矩阵分布过于庞大,不利于学习,甚至十分消耗显存等硬件资源;多个教师模型的特征融合会组成性能更加强大的教师模型,但是不当的训练方式无法充分获得多个教师带来的收益,反而提升了特征的长度,带来计算与存储的负担。
技术实现思路
[0004]鉴于以上现有技术存在的问题,本专利技术提出一种基于多模型融合的特征蒸馏方法、系统、设备和介质,主要解决现有教师模型暗知识矩阵过于庞大,对硬件 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模型融合的特征蒸馏方法,其特征在于,包括:通过预训练的多个教师模型分别获取目标数据的特征作为第一特征;通过学生模型的主干网络获取所述目标数据的第二特征,将所述第二特征分别输入多个第一蒸馏子网络,通过每个所述第一蒸馏子网络分别输出与所述第一特征相似度达到设定阈值的第二特征;将所有所述第一特征进行融合得到第一融合特征,并将各所述蒸馏子网络输出的第二特征进行融合得到第二融合特征,将所述第一融合特征和第二融合特征输入第二蒸馏子网络,获取所述目标数据的蒸馏特征。2.根据权利要求1所述的基于多模型融合的特征蒸馏方法,其特征在于,所述第一蒸馏子网络包括:注意力模块、归一化层、相似计算层以及至少一个全连接层;注意力模块根据所述全连接层输出特征的特征值大小获取对应特征的权重输出至所述归一化层;所述归一化层根据所述全连接层输出特征以及所述注意力模块输出权重完成对应特征归一化;所述相似计算层通过预设的损失函数获取归一化后的特征与对应教师模型输出的第一特征之间的相似度。3.根据权利要求2所述的基于多模型融合的特征蒸馏方法,其特征在于,所述注意力模块通过映射函数将特征值映射到
‑
1至1之间。4.根据权利要求3所述的基于多模型融合的特征蒸馏方法,其特征在于,所述映射函数包括:softmax函数、sigmoid函数。5.根据权利要求1所述的基于多模型融合的特征蒸馏方法,其特征在于,所述第二蒸馏子网络与所述第一蒸馏子网络采用相同的网络结构。6...
【专利技术属性】
技术研发人员:王曦,蹇易,
申请(专利权)人:上海云从企业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。