基于视觉语言模型的人脸属性识别方法及系统技术方案

技术编号:38867548 阅读:36 留言:0更新日期:2023-09-22 14:06
本发明专利技术涉及一种基于视觉语言模型的人脸属性识别方法及系统,该方法包括:1)给定需要预测的所有人脸属性标签,并获取多张人脸图片及其人脸属性标签,形成人脸属性识别数据集;2)构建基于视觉语言模型的人脸属性识别网络模型,其主要包括视觉编码器、语言编码器和多个视觉语言交互编码器,每个视觉语言交互编码器包括视觉语言交叉注意力模块和自注意力模块,视觉语言交叉注意力模块包含视觉对语言的调节注意力机制和语言对视觉的指导注意力机制;通过人脸属性识别数据集及40个人脸属性标签组合对网络模型进行训练;3)将训练好的人脸属性识别网络模型用于人脸属性识别。该方法及系统有利于获得更加稳定、鲁棒、准确的人脸属性识别结果。性识别结果。性识别结果。

【技术实现步骤摘要】
learning with knowledge transfer for facial attribute classification.In Proceedings of the IEEE International Conference on Industrial Technology.877

882)考虑人脸属性之间的相关程度不同,采用谱聚类的方法对人脸属性进行聚类,并以此为依据设计多任务框架。
[0005]然而,这些人脸属性关系要么通过固定的聚类算法获得,要么通过人工分组获得,而通过这些方式获得的人脸属性之间的关系并不能被很好地建模或者被充分地使用。此外,现有的人脸属性识别方法只关注于视觉模态,而当输入的图片出现干扰因素或者低像素的情况时,这些方法并不能有效地学习人脸属性之间的关系,进而帮助模型识别出人脸属性。受到自然语言处理领域的启发,我们希望模型能够从语言模态中学习到人脸属性关系,并利用所学到的关系来指导图像特征的提取。

技术实现思路

[0006]本专利技术的目的在于提供一种基于视觉语言模型的人脸属性识别方法及系统,该方法及系统有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于视觉语言模型的人脸属性识别方法,其特征在于,包括以下步骤:1)给定需要预测的所有人脸属性标签,并获取多张人脸图片及其人脸属性标签,形成人脸属性识别数据集;2)构建基于视觉语言模型的人脸属性识别网络模型,所述人脸属性识别网络模型主要包括视觉编码器、语言编码器和多个视觉语言交互编码器,每个视觉语言交互编码器包括视觉语言交叉注意力模块和自注意力模块,其中视觉语言交叉注意力模块包含视觉对语言的调节注意力机制和语言对视觉的指导注意力机制;通过人脸属性识别数据集以及40个人脸属性标签组合对人脸属性识别网络模型进行训练;3)将训练好的人脸属性识别网络模型用于人脸属性识别。2.根据权利要求1所述的基于视觉语言模型的人脸属性识别方法,其特征在于,步骤1)中,所述人脸属性识别数据集为CelebA和LFWA数据集。3.根据权利要求1所述的基于视觉语言模型的人脸属性识别方法,其特征在于,步骤2)中,所述人脸属性识别网络模型的实现方法为:A)加载在维基百科语料库数据集预训练的语言编码器权重对语言编码器进行初始化,使其能够从40个人脸属性标签组合中提取出这40个人脸属性标签之间的语义关系,并将其转换为能够输入到视觉语言交互编码器的文本序列;B)通过视觉编码器将人脸属性识别数据集中的人脸图像编码,使其成为能够输入到视觉语言交互编码器的图像序列;C)对文本序列与图像序列进行拼接、归一化、拆分后输入到视觉语言交互编码器,输入的序列首先通过视觉语言交叉注意力模块,其中视觉对语言的调节注意力机制将文本序列中来自语义知识的人脸属性关系进行调节并适配图像序列,然后语言对视觉的指导注意力机制使用经过调节的文本序列指导图像序列的分布,使其更加凸显出与属性相关的特征信息;最后将得到的经过文本序列指导的图像序列输入自注意力模块进行特征提取;经过调节的文本序列和经过自注意力模块特征提取的图像序列经过拼接,与原始输入相加得到中间序列,再通过归一化与多层感知机映射,并与原本的中间序列加和后,根据之前的大小进行拆分后作为新的文本序列与图像序列,输入下一个视觉语言交互编码器;D)为了让视觉模态与语言模态进行对齐,使来自两个模态的信息能够更好地融合,对经过所有视觉语言交互编码器后的文本序列与图像序列中各自的分类头进行损失计算,通过SGD优化器最小化两者误差,以加强两模态之间的对齐;E)为了确保语言模态指导的正确性,经过所有视觉语言交互编码器后得到的文本序列的分类头经过多层感知机进行映射,得到的识别结果与真实结果进行损失计算,通过SGD优化器最小化两者误差,以确保语言模态能够正确地指导视觉模态,并凸显与属性相关的特征;F)经过所有视觉语言交互编码器后得到的图像序列的分类头经过线性层进行映射后得出人脸属性预测结果,将其与真实结果进行损失计算,通过SGD优化器最小化两者误差,以进...

【专利技术属性】
技术研发人员:陈思雷鸣轩王大寒朱顺痣吴芸
申请(专利权)人:厦门理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1