The present invention relates to an online facial expression pre-detection method and device based on video. The method includes: pre-processing facial expression video and extracting LBP texture features; extracting video fragments of different lengths from the original video to construct the mapping relationship between the fragments and detection values; acquiring the functional representation of each video fragment based on multi-instance learning, and constructing one for each two video fragments. According to the constraint pairs of each training sample, the Lagrange multiplier method is used to optimize the model by minimizing the difference between the loss function and function parameters of all segments at the current time and the previous time, so as to update the model and obtain the linear expression pre-detection function at each time. For test samples, each frame image feature is input into the pre-detector in turn, and the detection value of each frame image is acquired in real time. Finally, the expression event is detected according to whether the output value reaches the preset threshold. The invention solves the problem of real-time detection that can not be realized by traditional expression recognition method, and puts forward an online pre-detection model for the first time, which improves the correctness and timeliness of recognition.
【技术实现步骤摘要】
基于视频的在线人脸表情预检测方法及装置
本专利技术涉及一种人脸表情预检测方法及装置,属于人脸表情识别与事件预检测
技术介绍
人脸表情识别是计算机视觉、人机交互和模式识别等领域均涉及的一个重要研究方向,受到国内外研究者们的广泛关注。由于基于图像的识别方法包含的表情信息有限,容易受到外界环境和个体差异性等因素的影响,而且随着近年来,计算机技术的快速发展,基于视频的人脸表情识别获得了更多的关注。由于表情的产生和消失都有过程,基于视频的表情识别更能反映一个完整表情的运动过程,包含更多的面部运动和时间信息。但是传统的基于视频的表情识别是一个离线的过程,表情特征提取和识别分类是针对整个完整的表情视频,无法在一个表情视频开始之后、结束之前尽早地检测到该表情事件。如果只采用传统方法进行分析,无法实现真正的实时人机交互。相对于传统的对整个视频提取特征后进行分类识别的方法,表情预检测需要对不完整的表情片断进行检测,因此在模型训练阶段,需要对训练样本进行扩展,提取不同长度的视频片断,并给这些片断设定一个期望值,使得信息量越大的视频片断对应的函数值越大。视频片断的有效表示会直接影响到预检测的有效性,而传统的表情特征提取方法(Max-MarginEarlyEventDetectors,MMED)无法充分挖掘片断中的有效信息;此外,视频片断的提取会使训练样本的数量大大增加,在模型训练阶段对计算机内存的消耗会大大增加,增加运行成本。
技术实现思路
本专利技术所要解决的技术问题是:针对如何及时有效地检测到视频中的人脸表情这一实际问题,提出了在线人脸表情预检测方法OMEFD(onli ...
【技术保护点】
1.一种基于视频的在线人脸表情预检测方法,其特征在于,包括:步骤1)、针对训练样本集,对表情视频预处理,通过面部关键点检测及人脸对齐方法,分割出人脸面部区域,并使整个视频中的脸部图像像素位置一致;步骤2)、提取每个样本视频中每帧图像的面部表情特征;步骤3)、将训练样本进行扩展,提取多个长度不同的视频片断构造约束对,并进行排序,使得信息量越大的片断对应的函数值越大;步骤4)、将每个视频的约束对作为模型当前时刻的训练数据,通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异,采用拉格朗日乘数法对模型进行优化,从而更新模型,获得各个时刻的线性表情预检测函数;步骤5)、针对测试样本,依次采用步骤1)至步骤2)处理,然后根据预检测函数,逐帧读取数据,输出每帧图像对应的检测值,最终根据预设的阈值实现表情预检测。
【技术特征摘要】
1.一种基于视频的在线人脸表情预检测方法,其特征在于,包括:步骤1)、针对训练样本集,对表情视频预处理,通过面部关键点检测及人脸对齐方法,分割出人脸面部区域,并使整个视频中的脸部图像像素位置一致;步骤2)、提取每个样本视频中每帧图像的面部表情特征;步骤3)、将训练样本进行扩展,提取多个长度不同的视频片断构造约束对,并进行排序,使得信息量越大的片断对应的函数值越大;步骤4)、将每个视频的约束对作为模型当前时刻的训练数据,通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异,采用拉格朗日乘数法对模型进行优化,从而更新模型,获得各个时刻的线性表情预检测函数;步骤5)、针对测试样本,依次采用步骤1)至步骤2)处理,然后根据预检测函数,逐帧读取数据,输出每帧图像对应的检测值,最终根据预设的阈值实现表情预检测。2.根据权利要求1所述的方法,其特征在于,步骤1)中的面部关键点提取,是基于深度卷积神经网络的人脸检测方法,提取复杂背景图像中人脸面部区域的5个关键点位置:两个眼睛中心点,鼻尖点和嘴角两个点。3.根据权利要求1所述的方法,其特征在于,步骤1)中的人脸对齐方法,是采用三对点法将训练样本和测试样本集中的人脸图像序列进行人脸关键点对齐;所述三对点法是指:固定两个眼睛中心点和鼻尖点这三个点的坐标位置,求取相应的仿射变换,通过变换将这三个关键点对齐到标准模板的坐标位置。4.根据权利要求1所述的方法,其特征在于,步骤2)所述面部表情特征,包括LBP纹理特征和SIFT特征。5.根据权利要求1所述的方法,其特征在于,步骤3)具体包括:步骤3.1、生成训练数据:对原始的训练样本进行扩展,从原始表情视频中提取多个不同长度的视频片断,每个视频片断对应一个检测期望值,用两个不同期望值的片断构建成一个约束对,将约束对的函数表示作为模型训练的训练数据;步骤3.2、基于多示例学习的视频片断表示:将每个视频片断看作一个包,包中的一个示例表示该片断的一个子集;示例的特征表示用首尾帧图像对应的特征表示相减得到,一个包的函数值是其所有示例的函数值的平均值。6.根据权利要求1或5任一所述的方法,其特征在于,步骤4)中,在时刻i,在线预检测更新模型如下:s.t.c1=Ii∩[1,t],其中,{wi,bi}代表在时刻i,模型需要求解的参数;γ表示平衡参数;Ci为训练样本Vi中提取出的约束对的个数,每个约束对包含两个包,c1和c2分别表示第c个约束对的两个包;代表模型中损失函数;表示训练样本Vi中抽取的约束对c中的两个视频片断的包,其中表示视频片段中已发生的表情片断占整个视频片断的比例;是一个尺度变量,权衡输入因子的重要性;为模型边界;表示片断包B的检测值...
【专利技术属性】
技术研发人员:谢利萍,魏海坤,张金霞,张侃健,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。