视频识别模型的训练方法、视频识别方法、装置以及设备制造方法及图纸

技术编号:38768710 阅读:15 留言:0更新日期:2023-09-10 10:41
本申请公开了一种视频识别模型的训练方法、视频识别方法、装置以及设备,属于计算机技术领域。通过本申请实施例提供的技术方案,采用预训练加微调的方式来训练视频识别模型,在预训练过程中,将多个第一样本人脸视频输入初始视频识别模型,通过初始视频识别模型,对多个第一样本人脸视频进行多模态编码,得到各个第一样本人脸视频的初始多模态特征。采用各个第一样本人脸视频的初始音频特征以及初始多模态特征,对该初始视频识别模型进行训练,得到参考视频识别模型。在微调过程中,采用多个第二样本人脸视频,以及各个第二样本人脸视频的标注情感标签和标注文本中的至少一项,对该参考视频识别模型进行训练,得到目标视频识别模型。模型。模型。

【技术实现步骤摘要】
视频识别模型的训练方法、视频识别方法、装置以及设备


[0001]本申请涉及计算机
,特别涉及一种视频识别模型的训练方法、视频识别方法、装置、设备以及存储介质。

技术介绍

[0002]随着计算机技术的发展,越来越多的场景会用到人脸视频,比如,在语音助手的场景下,用户与语音助手之间建立视频连接,语音助手通过采集到的人脸视频来与用户进行交流。在使用人脸视频的过程中,需要对人脸视频进行识别,得到人脸视频中的信息。
[0003]相关技术中,往往会训练一个视频识别模型来对人脸视频进行识别,从而得到人脸视频中的信息。
[0004]但是,训练视频识别模型需要大量的标注数据,而标注数据的获取难度较高,导致训练视频识别模型的成本较高。

技术实现思路

[0005]本申请实施例提供了一种视频识别模型的训练方法、视频识别方法、装置、设备以及存储介质,可以降低训练视频识别模型的成本,技术方案如下:
[0006]一方面,提供了一种视频识别模型的训练方法,所述方法包括:
[0007]将多个第一样本人脸视频输入初始视频识别模型,通过所述初始视频识别模型,对所述多个第一样本人脸视频进行多模态编码,得到各个所述第一样本人脸视频的初始多模态特征,所述初始多模态特征是对应第一样本人脸视频的初始音频特征以及初始图像特征融合得到的;
[0008]采用各个所述第一样本人脸视频的初始音频特征以及初始多模态特征,对所述初始视频识别模型进行训练,得到参考视频识别模型;
[0009]采用多个第二样本人脸视频,以及各个所述第二样本人脸视频的标注情感标签和标注文本中的至少一项,对所述参考视频识别模型进行训练,得到目标视频识别模型,所述目标视频识别模型用于识别输入视频的情感标签和所述输入视频的音频对应的文本中的至少一项,所述标注文本为对应第二样本人脸视频的音频对应的文本。
[0010]一方面,提供了一种视频识别方法,所述方法包括:
[0011]将目标人脸视频输入目标视频识别模型,通过所述目标视频识别模型,对所述目标人脸视频进行多模态编码,得到所述目标人脸视频的目标多模态特征,所述目标多模态特征是所述目标人脸视频的音频特征以及图像特征融合得到的;
[0012]通过所述目标视频识别模型,对所述目标人脸视频的目标多模态特征进行解码,得到所述目标人脸视频对应的情感标签以及所述目标人脸视频的音频对应的文本中的至少一项;
[0013]其中,所述目标视频识别模型是基于采用多个第一样本人脸视频、多个第二样本人脸视频,以及各个所述第二样本人脸视频的标注情感标签和标注文本中的至少一项训练
得到的。
[0014]一方面,提供了一种视频识别模型的训练装置,所述装置包括:
[0015]多模态编码模块,用于将多个第一样本人脸视频输入初始视频识别模型,通过所述初始视频识别模型,对所述多个第一样本人脸视频进行多模态编码,得到各个所述第一样本人脸视频的初始多模态特征,所述初始多模态特征是对应第一样本人脸视频的初始音频特征以及初始图像特征融合得到的;
[0016]第一训练模块,用于采用各个所述第一样本人脸视频的初始音频特征以及初始多模态特征,对所述初始视频识别模型进行训练,得到参考视频识别模型;
[0017]第二训练模块,用于采用多个第二样本人脸视频,以及各个所述第二样本人脸视频的标注情感标签和标注文本中的至少一项,对所述参考视频识别模型进行训练,得到目标视频识别模型,所述目标视频识别模型用于识别输入视频的情感标签和所述输入视频的音频对应的文本中的至少一项,所述标注文本为对应第二样本人脸视频的音频对应的文本。
[0018]在一种可能的实施方式中,所述多模态编码模块,用于通过所述初始视频识别模型,对所述多个第一样本人脸视频进行音频特征编码和图像特征编码,得到各个所述第一样本人脸视频的初始音频特征以及初始图像特征;通过所述初始视频识别模型,将各个所述第一样本人脸视频的初始音频特征以及初始图像特征进行多模态融合,得到各个所述第一样本人脸视频的初始多模态特征。
[0019]在一种可能的实施方式中,所述多模态编码模块,用于对于所述多个第一样本人脸视频中的任一第一样本人脸视频,对所述第一样本人脸视频的音频进行音频特征提取和全连接,得到所述第一样本人脸视频的初始音频特征;对所述第一样本人脸视频的图像进行图像特征提取和卷积,得到所述第一样本人脸视频的初始图像特征。
[0020]在一种可能的实施方式中,所述多模态编码模块,用于对于所述多个第一样本人脸视频中的任一第一样本人脸视频,将所述第一样本人脸视频的初始音频特征以及初始图像特征进行融合,得到所述第一样本人脸视频的第一融合特征;基于注意力机制对所述第一样本人脸视频的初始图像特征和第一融合特征进行编码,得到所述第一样本人脸视频的初始多模态特征。
[0021]在一种可能的实施方式中,所述多模态编码模块,用于采用门控机制对所述第一样本人脸视频的第一融合特征进行处理,得到所述第一样本人脸视频的门控融合特征;将所述第一样本人脸视频的初始图像特征和门控融合特征进行融合,得到所述第一样本人脸视频的第二融合特征;采用注意力机制对所述第二融合特征进行编码,得到所述第一样本人脸视频的初始多模态特征。
[0022]在一种可能的实施方式中,所述第一训练模块,用于对各个所述第一样本人脸视频的初始音频特征进行聚类,得到多个第一聚类中心;基于所述多个第一聚类中心以及各个所述第一样本人脸视频的初始多模态特征,对所述初始视频识别模型进行训练,得到所述参考视频识别模型。
[0023]在一种可能的实施方式中,所述第一训练模块,用于基于所述多个第一聚类中心,将各个所述第一样本人脸视频的初始多模态特征划分至多个第一簇;基于各个所述第一簇内初始多模态特征之间的相似度,以及不同第一簇内初始多模态特征之间的相似度,对所
述初始视频识别模型进行训练,得到第一视频识别模型;将所述多个第一样本人脸视频输入第一视频识别模型,通过所述第一视频识别模型,对所述多个第一样本人脸视频进行多模态编码,得到各个所述第一样本人脸视频的第一多模态特征;对各个所述第一样本人脸视频的第一多模态特征进行聚类,得到多个第二聚类中心;基于所述多个第二聚类中心以及各个所述第一样本人脸视频的第一多模态特征,对所述第一视频识别模型进行训练,得到所述参考视频识别模型。
[0024]在一种可能的实施方式中,所述第一训练模块,用于基于各个所述第二聚类中心对应的第二簇内第一多模态特征之间的相似度,以及不同第二聚类中心对应的第二簇内第一多模态特征之间的相似度,对所述第一视频识别模型进行训练,得到第二视频识别模型;将所述多个第一样本人脸视频输入第二视频识别模型,通过所述第二视频识别模型,对所述多个第一样本人脸视频进行多模态编码,得到各个所述第一样本人脸视频的第二多模态特征;基于各个所述第一样本人脸视频的第二多模态特征,对所述第二视频识别模型进行训练,得到所述参考视频识别模型。
[0025]在一种可能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频识别模型的训练方法,其特征在于,所述方法包括:将多个第一样本人脸视频输入初始视频识别模型,通过所述初始视频识别模型,对所述多个第一样本人脸视频进行多模态编码,得到各个所述第一样本人脸视频的初始多模态特征,所述初始多模态特征是对应第一样本人脸视频的初始音频特征以及初始图像特征融合得到的;采用各个所述第一样本人脸视频的初始音频特征以及初始多模态特征,对所述初始视频识别模型进行训练,得到参考视频识别模型;采用多个第二样本人脸视频,以及各个所述第二样本人脸视频的标注情感标签和标注文本中的至少一项,对所述参考视频识别模型进行训练,得到目标视频识别模型,所述目标视频识别模型用于识别输入视频的情感标签和所述输入视频的音频对应的文本中的至少一项,所述标注文本为对应第二样本人脸视频的音频对应的文本。2.根据权利要求1所述的方法,其特征在于,所述通过所述初始视频识别模型,对所述多个第一样本人脸视频进行多模态编码,得到各个所述第一样本人脸视频的初始多模态特征包括:通过所述初始视频识别模型,对所述多个第一样本人脸视频进行音频特征编码和图像特征编码,得到各个所述第一样本人脸视频的初始音频特征以及初始图像特征;通过所述初始视频识别模型,将各个所述第一样本人脸视频的初始音频特征以及初始图像特征进行多模态融合,得到各个所述第一样本人脸视频的初始多模态特征。3.根据权利要求2所述的方法,其特征在于,所述对所述多个第一样本人脸视频进行音频特征编码和图像特征编码,得到各个所述第一样本人脸视频的初始音频特征以及初始图像特征包括:对于所述多个第一样本人脸视频中的任一第一样本人脸视频,对所述第一样本人脸视频的音频进行音频特征提取和全连接,得到所述第一样本人脸视频的初始音频特征;对所述第一样本人脸视频的图像进行图像特征提取和卷积,得到所述第一样本人脸视频的初始图像特征。4.根据权利要求2所述的方法,其特征在于,所述将各个所述第一样本人脸视频的初始音频特征以及初始图像特征进行多模态融合,得到各个所述第一样本人脸视频的初始多模态特征包括:对于所述多个第一样本人脸视频中的任一第一样本人脸视频,将所述第一样本人脸视频的初始音频特征以及初始图像特征进行融合,得到所述第一样本人脸视频的第一融合特征;基于注意力机制对所述第一样本人脸视频的初始图像特征和第一融合特征进行编码,得到所述第一样本人脸视频的初始多模态特征。5.根据权利要求4所述的方法,其特征在于,所述基于注意力机制对所述第一样本人脸视频的初始图像特征和第一融合特征进行编码,得到所述第一样本人脸视频的初始多模态特征包括:采用门控机制对所述第一样本人脸视频的第一融合特征进行处理,得到所述第一样本人脸视频的门控融合特征;将所述第一样本人脸视频的初始图像特征和门控融合特征进行融合,得到所述第一样
本人脸视频的第二融合特征;采用注意力机制对所述第二融合特征进行编码,得到所述第一样本人脸视频的初始多模态特征。6.根据权利要求1所述的方法,其特征在于,所述采用各个所述第一样本人脸视频的初始音频特征以及初始多模态特征,对所述初始视频识别模型进行训练,得到参考视频识别模型包括:对各个所述第一样本人脸视频的初始音频特征进行聚类,得到多个第一聚类中心;基于所述多个第一聚类中心以及各个所述第一样本人脸视频的初始多模态特征,对所述初始视频识别模型进行训练,得到所述参考视频识别模型。7.根据权利要求6所述的方法,其特征在于,所述基于所述多个第一聚类中心以及各个所述第一样本人脸视频的初始多模态特征,对所述初始视频识别模型进行训练,得到参考视频识别模型包括:基于所述多个第一聚类中心,将各个所述第一样本人脸视频的初始多模态特征划分至多个第一簇;基于各个所述第一簇内初始多模态特征之间的相似度,以及不同第一簇内初始多模态特征之间的相似度,对所述初始视频识别模型进行训练,得到第一视频识别模型;将所述多个第一样本人脸视频输入第一视频识别模型,通过所述第一视频识别模型,对所述多个第一样本人脸视频进行多模态编码,得到各个所述第一样本人脸视频的第一多模态特征;对各个所述第一样本人脸视频的第一多模态特征进行聚类,得到多个第二聚类中心;基于所述多个第二聚类中心以及各个所述第一样本人脸视频的第一多模态特征,对所述第一视频识别模型进行训练,得到所述参考视频识别模型。8.根据权利要求7所述的方法,其特征在于,所述基于所述多个第二聚类中心以及各个所述第一样本人脸视频的第一多模态特征,对所述第一视频识别模型进行训练,得到所述参考视频识别模型包括:基于各个所述第二聚类中心对应的第二簇内第一多模态特征之间的相似度,以及不同第二聚类中心对应的第二簇内第一多模态特征之间的相似度,对所述第一视频识别模型进行训练,得到第二视频识别模型;将所述多个第一样本人脸视频输入第二视频识别模型,通过所述第二视频识别模型,对所述多个第一样本人脸视频进行多模态编码,得到各个所述第一样本人脸视频的第二多模态特征;基于各个所述第一样本人脸视频的第二多模态特征,对所述第二视频识别模型进行训练,得到所述参考视频识别模型。9.根据权利要求1所述的方法,其特征在于,所述采用多个第二样本人脸视频,以及各个所述第二样本人脸视频的标注情感标签和标注文本中的至少一项,对所述参考视频识别模型进行训练,得到目标视频识别模型包括:将多个第二样本人脸视频输入参考视频识别模型,通过所述参考视频识别模型,对所述多个第二样本人脸视频进行多模态编码,得到各个所述第二样本人脸视频的多模态特征;
通过所述参考视频识别模型,对各个所述第二样本人脸视频的多模态特征进行解码,得到各个所述第二样本人脸...

【专利技术属性】
技术研发人员:李超陈昌儒李标
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1