表情识别方法和系统技术方案

技术编号:37504557 阅读:35 留言:0更新日期:2023-05-07 09:40
本说明书提供的表情识别方法和系统,在获取目标面部视频的多个视频片段后,在多个视频片段中提取出每一视频片段的时空特征和时序特征,以及基于时空特征和所述时序特征,确定目标面部视频对应的表情类别;该方案可以提升表情识别的准确率。表情识别的准确率。表情识别的准确率。

【技术实现步骤摘要】
表情识别方法和系统


[0001]本说明书涉及表情识别领域,尤其涉及一种表情识别方法和系统。

技术介绍

[0002]近年来,随着互联网技术的飞速发展,人脸识别技术也得到了广泛应用。在人脸识别系统中可以通过表情识别结果判断采集人当前的情绪状态,从而推断其刷脸的意愿,可作为整体刷脸链路的软启动判断依据之一。现有的表情识别方法往往直接在采集到的面部图像提取出时空信息进行表情识别。
[0003]在对现有技术的研究和实践过程中,本专利技术的专利技术人发现人脸表情在多种状态下呈现不稳定、不规律的状态,通过在面部图像中提取出时空信息进行表情识别难以实现强鲁棒性,另外,面部图像中的时空信息相对单一,因此,导致表情识别的准确率较低。

技术实现思路

[0004]本说明书提供一种准确率更高的表情识别方法和系统。
[0005]第一方面,本说明书提供一种表情识别方法,包括:获取目标面部视频的多个视频片段;在所述多个视频片段中提取出每一视频片段的时空特征和时序特征;以及基于所述时空特征和所述时序特征,确定所述目标面部视频对应的表情类别。
[0006]在一些实施例中,所述获取目标面部视频的多个视频片段,包括:获取目标面部视频;以及对所述目标面部视频进行时序分割,得到所述多个视频片段,所述多个视频片段中每一视频片段的时间长度相同。
[0007]在一些实施例中,所述在所述多个视频片段中提取出每一视频片段的时空特征和时序特征,包括:在所述每一视频片段中提取出时空特征;以及获取所述每一视频片段对应的光流信息,并在所述光流信息中提取出时序特征。
[0008]在一些实施例中,所述获取所述每一视频片段对应的光流信息,包括:获取所述每一视频片段中的目标视频帧对应的初始光流信息,所述目标视频帧包括存在预设数量的相邻视频帧的视频帧;以及将所述初始光流信息进行融合,得到所述每一视频片段对应的光流信息。
[0009]在一些实施例中,所述获取所述每一视频片段中的目标视频帧对应的初始光流信息,包括:在所述每一视频片段中选取出目标视频帧,并在所述目标面部视频中提取出所述目标视频帧对应的所述预设数量的相邻视频帧;以及计算所述相邻视频帧之间的偏移量,以得到所述目标视频帧对应的初始光流信息。
[0010]在一些实施例中,所述在所述每一视频片段中提取出时空特征,包括:在时序分割网络中选取出所述每一视频片段对应的时空卷积网络;采用所述时空卷积网络在对应的视频片段中提取出二维时空特征和初始三维时空特征;以及将所述初始三维时空特征和所述二维时空特征进行融合,以得到所述每一视频片段的时空特征。
[0011]在一些实施例中,所述时空卷积网络包括二维时空卷积子网络和三维时空卷积子
网络,所述三维时空卷积子网络包括多个三维卷积层;以及所述采用所述时空卷积网络在对应的视频片段中提取出二维时空特征和初始三维时空特征,包括:采用所述二维时空卷积子网络在对应的视频片段中提取出二维时空特征,以及采用所述三维时空卷积子网络中的第一层三维卷积层在对应的视频片段中提取出初始三维时空特征。
[0012]在一些实施例中,所述将所述初始三维时空特征和所述二维时空特征进行融合,以得到所述每一视频片段的时空特征,包括:采用所述三维时空卷积子网络中的第一层三维卷积层在二维时空特征中提取出目标三维时空特征;将所述初始三维时空特征和所述目标三维时空进行加权融合,得到融合后的时空特征;以及将所述融合后的时空特征输入至三维时空卷积子网络中的目标三维卷积层,以得到所述每一视频片段的时空特征,所述目标三维卷积层为所述三维时空卷积子网络中除第一层三维卷积层以外的所述三维卷积层。
[0013]在一些实施例中,所述时序分割网络还包括时序卷积网络,所述时空卷积网络与所述时序卷积网络权重共享,且数量相同;以及所述在所述光流信息中提取出时序特征,包括:采用所述时序卷积网络在所述光流信息中提取出时序特征。
[0014]在一些实施例中,所述时空卷积网络的训练包括以下步骤:获取面部表情图像样本集合和面部视频样本集合;以及采用所述面部表情图像样本集合和面部视频样本集合对预设时空卷积网络进行多任务训练,得到所述时空卷积网络。
[0015]在一些实施例中,所述采用所述面部表情图像样本集合和面部视频样本集合对预设时空卷积网络进行多任务训练,得到所述时空卷积网络,包括:采用所述面部视频样本集合对预设时空卷积网络进行预设次数的训练,得到训练后的第一初始时空卷积网络;采用所述面部表情图像样本集合对所述第一初始时空卷积网络进行训练,得到训练后的第二初始时空卷积网络,并将所述预设时空卷积网络更新为所述第二初始时空卷积网络;以及返回执行所述采用所述面部视频样本集合对预设时空卷积网络进行预设次数的训练的步骤,直至所述预设时空卷积网络收敛,得到所述时空卷积网络。
[0016]在一些实施例中,所述时序卷积网络的训练包括以下步骤:获取面部表情图像样本集合和面部视频样本集合对应的光流信息样本集合;基于所述面部表情图像样本集合中的面部表情图像样本,生成虚拟面部表情视频;在所述虚拟面部表情视频中提取出光流信息,得到虚拟光流信息样本集合;以及采用所述虚拟光流信息样本集合和所述光流信息样本集合对预设时序卷积网络进行多任务训练,得到所述时序卷积网络。
[0017]在一些实施例中,所述在所述每一视频片段中提取出时空特征,包括:在所述每一视频片段中提取出多维度的初始时空特征;确定每一维度的所述初始时空特征的注意力权重;以及基于所述注意力权重对所述初始时空特征进行融合,得到所述每一视频片段对应的时空特征。
[0018]在一些实施例中,所述基于所述时空特征和所述时序特征,确定所述目标面部视频对应的表情类别,包括:基于所述时空特征,对所述目标面部视频进行表情分类,得到第一表情分类结果;基于所述时序特征,对所述目标面部视频进行表情分类,得到第二表情分类结果;以及将所述第一表情分类结果和所述第二表情分类结果进行加权融合,以得到所述目标面部视频对应的表情类别。
[0019]在一些实施例中,所述基于所述时空特征,对所述目标面部视频进行表情分类,得到第一表情分类结果,包括:将所述每一视频片段的时空特征进行融合,得到所述目标面部
视频的目标时空特征;以及基于所述目标时空特征,采用表情分类网络对所述目标面部视频进行表情分类,得到第一表情分类结果。
[0020]在一些实施例中所述将所述第一表情分类结果和所述第二表情分类结果进行加权融合,以得到所述目标面部视频对应的表情类别,包括:在所述第一表情分类结果中提取出每一预设表情类别对应的第一预测值;在所述第二表情分类结果中提取出所述每一预设表情类别对应的第二预测值;以及对所述第一预测值和所述第二预测值进行加权融合,并基于融合后的预测值,在所述每一预设表情类别中选取出所述目标面部视频对应的表情类别。
[0021]第二方面,本说明书还提供一种表情识别系统,包括:至少一个存储介质,存储有至少一个指令集,用于进行表情识别;以及至少一个处理器,同所述至少本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表情识别方法,包括:获取目标面部视频的多个视频片段;在所述多个视频片段中提取出每一视频片段的时空特征和时序特征;以及基于所述时空特征和所述时序特征,确定所述目标面部视频对应的表情类别。2.根据权利要求1所述的表情识别方法,其中,所述获取目标面部视频的多个视频片段,包括:获取目标面部视频;以及对所述目标面部视频进行时序分割,得到所述多个视频片段,所述多个视频片段中每一视频片段的时间长度相同。3.根据权利要求1所述的表情识别方法,其中,所述在所述多个视频片段中提取出每一视频片段的时空特征和时序特征,包括:在所述每一视频片段中提取出时空特征;以及获取所述每一视频片段对应的光流信息,并在所述光流信息中提取出时序特征。4.根据权利要求3所述的表情识别方法,其中,所述获取所述每一视频片段对应的光流信息,包括:获取所述每一视频片段中的目标视频帧对应的初始光流信息,所述目标视频帧包括存在预设数量的相邻视频帧的视频帧;以及将所述初始光流信息进行融合,得到所述每一视频片段对应的光流信息。5.根据权利要求4所述的表情识别方法,其中,所述获取所述每一视频片段中的目标视频帧对应的初始光流信息,包括:在所述每一视频片段中选取出目标视频帧,并在所述目标面部视频中提取出所述目标视频帧对应的所述预设数量的相邻视频帧;以及计算所述相邻视频帧之间的偏移量,以得到所述目标视频帧对应的初始光流信息。6.根据权利要求3所述的表情识别方法,其中,所述在所述每一视频片段中提取出时空特征,包括:在时序分割网络中选取出所述每一视频片段对应的时空卷积网络;采用所述时空卷积网络在对应的视频片段中提取出二维时空特征和初始三维时空特征;以及将所述初始三维时空特征和所述二维时空特征进行融合,以得到所述每一视频片段的时空特征。7.根据权利要求6所述的表情识别方法,其中,所述时空卷积网络包括二维时空卷积子网络和三维时空卷积子网络,所述三维时空卷积子网络包括多个三维卷积层;以及所述采用所述时空卷积网络在对应的视频片段中提取出二维时空特征和初始三维时空特征,包括:采用所述二维时空卷积子网络在对应的视频片段中提取出二维时空特征,以及采用所述三维时空卷积子网络中的第一层三维卷积层在对应的视频片段中提取出初始三维时空特征。8.根据权利要求6所述的表情识别方法,其中,所述将所述初始三维时空特征和所述二维时空特征进行融合,以得到所述每一视频片段的时空特征,包括:
采用所述三维时空卷积子网络中的第一层三维卷积层在二维时空特征中提取出目标三维时空特征;将所述初始三维时空特征和所述目标三维时空进行加权融合,得到融合后的时空特征;以及将所述融合后的时空特征输入至三维时空卷积子网络中的目标三维卷积层,以得到所述每一视频片段的时空特征,所述目标三维卷积层为所述三维时空卷积子网络中除第一层三维卷积层以外的所述三维卷积层。9.根据权利要求6所述的表情识别方法,其中,所述时序分割网络还包括时序卷积网络,所述时空卷积网络与所述时序卷积网络权重共享,且数量相同;以及所述在所述光流信息中提取出时序特征,包括:采用所述时序卷积网络在所述光流信息中提取出时序特征。10.根据权利要求9所述的表情识别方法,其中,所述时空卷积网络的训练包括以下步骤:获取面部表情图像样本集合和面部视频样本集合;以...

【专利技术属性】
技术研发人员:武文琦
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1