当前位置: 首页 > 专利查询>东南大学专利>正文

基于视频的在线人脸表情预检测方法及装置制造方法及图纸

技术编号:20118807 阅读:22 留言:0更新日期:2019-01-16 12:15
本发明专利技术涉及一种基于视频的在线人脸表情预检测方法及装置,该方法包括:对表情视频预处理,并抽取LBP纹理特征;从原始视频提取长度不同的视频片断,构建片断与检测值的映射关系;基于多示例学习,获取每个视频片断的函数表示,并将每两个视频片断构建一个约束对;根据每个训练样本的约束对,通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异,采用拉格朗日乘数法对模型进行优化,从而更新模型,获得各个时刻的线性表情预检测函数。对于测试样本,将每帧图像特征依次输入预检测器,实时获取每帧图像的检测值,最终根据输出值是否达到预设的阈值判断是否检测到该表情事件。本发明专利技术解决了传统表情识别方法不能实现的实时检测问题,并首次提出了在线预检测模型,提高了识别的正确性和及时性。

On-line Face Expression Pre-detection Method and Device Based on Video

The present invention relates to an online facial expression pre-detection method and device based on video. The method includes: pre-processing facial expression video and extracting LBP texture features; extracting video fragments of different lengths from the original video to construct the mapping relationship between the fragments and detection values; acquiring the functional representation of each video fragment based on multi-instance learning, and constructing one for each two video fragments. According to the constraint pairs of each training sample, the Lagrange multiplier method is used to optimize the model by minimizing the difference between the loss function and function parameters of all segments at the current time and the previous time, so as to update the model and obtain the linear expression pre-detection function at each time. For test samples, each frame image feature is input into the pre-detector in turn, and the detection value of each frame image is acquired in real time. Finally, the expression event is detected according to whether the output value reaches the preset threshold. The invention solves the problem of real-time detection that can not be realized by traditional expression recognition method, and puts forward an online pre-detection model for the first time, which improves the correctness and timeliness of recognition.

【技术实现步骤摘要】
基于视频的在线人脸表情预检测方法及装置
本专利技术涉及一种人脸表情预检测方法及装置,属于人脸表情识别与事件预检测

技术介绍
人脸表情识别是计算机视觉、人机交互和模式识别等领域均涉及的一个重要研究方向,受到国内外研究者们的广泛关注。由于基于图像的识别方法包含的表情信息有限,容易受到外界环境和个体差异性等因素的影响,而且随着近年来,计算机技术的快速发展,基于视频的人脸表情识别获得了更多的关注。由于表情的产生和消失都有过程,基于视频的表情识别更能反映一个完整表情的运动过程,包含更多的面部运动和时间信息。但是传统的基于视频的表情识别是一个离线的过程,表情特征提取和识别分类是针对整个完整的表情视频,无法在一个表情视频开始之后、结束之前尽早地检测到该表情事件。如果只采用传统方法进行分析,无法实现真正的实时人机交互。相对于传统的对整个视频提取特征后进行分类识别的方法,表情预检测需要对不完整的表情片断进行检测,因此在模型训练阶段,需要对训练样本进行扩展,提取不同长度的视频片断,并给这些片断设定一个期望值,使得信息量越大的视频片断对应的函数值越大。视频片断的有效表示会直接影响到预检测的有效性,而传统的表情特征提取方法(Max-MarginEarlyEventDetectors,MMED)无法充分挖掘片断中的有效信息;此外,视频片断的提取会使训练样本的数量大大增加,在模型训练阶段对计算机内存的消耗会大大增加,增加运行成本。
技术实现思路
本专利技术所要解决的技术问题是:针对如何及时有效地检测到视频中的人脸表情这一实际问题,提出了在线人脸表情预检测方法OMEFD(onlinemulti-instancelearningforearlyfacialexpressiondetection),使得基于视频的人脸表情识别系统更具实用性。本专利技术为了解决以上技术问题,所采用的技术方案如下:本专利技术提出一种基于视频的在线人脸表情预检测方法,包括:步骤1)、针对训练样本集,对表情视频预处理,通过面部关键点检测及人脸对齐方法,分割出人脸面部区域,并使整个视频中的脸部图像像素位置一致;步骤2)、提取每个样本视频中每帧图像的面部表情特征;步骤3)、将训练样本进行扩展,提取多个长度不同的视频片断构造约束对,并进行排序,使得信息量越大的片断对应的函数值越大;步骤4)、将每个视频的约束对作为模型当前时刻的训练数据,通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异,采用拉格朗日乘数法对模型进行优化,从而更新模型,获得各个时刻的线性表情预检测函数;步骤5)、针对测试样本,依次采用步骤1)至步骤2)处理,然后根据预检测函数,逐帧读取数据,输出每帧图像对应的检测值,最终根据预设的阈值实现表情预检测。进一步,本专利技术所提出的方法,步骤1)中的面部关键点提取,是基于深度卷积神经网络的人脸检测方法,提取复杂背景图像中人脸面部区域的5个关键点位置:两个眼睛中心点,鼻尖点和嘴角两个点。进一步,本专利技术所提出的方法,步骤1)中的人脸对齐方法,是采用三对点法将训练样本和测试样本集中的人脸图像序列进行人脸关键点对齐。所述三对点法是指:固定两个眼睛中心点和鼻尖点这三个点的坐标位置,求取相应的仿射变换,通过变换将这三个关键点对齐到标准模板的坐标位置。进一步,本专利技术所提出的方法,步骤2)所述面部表情特征,包括LBP纹理特征和SIFT特征。进一步,本专利技术所提出的方法,步骤3)具体包括:步骤3.1、生成训练数据:对原始的训练样本进行扩展,从原始表情视频中提取多个不同长度的视频片断,每个视频片断对应一个检测期望值,用两个不同期望值的片断构建成一个约束对,将约束对的函数表示作为模型训练的训练数据;步骤3.2、基于多示例学习的视频片断表示:将每个视频片断看作一个包,包中的一个示例表示该片断的一个子集;示例的特征表示用首尾帧图像对应的特征表示相减得到,一个包的函数值是其所有示例的函数值的平均值。进一步,本专利技术所提出的方法,步骤3)中,在时刻i,预检测模型如下:s.t.c1=Ii∩[1,t],其中,{wi,bi}代表在时刻i,模型需要求解的参数;γ表示平衡参数;Ci为训练样本Vi中提取出的约束对的个数,每个约束对包含两个包,c1和c2分别表示第c个约束对的两个包;代表模型中损失函数;表示训练样本Vi中抽取的约束对c中的两个视频片断的包,其中表示视频片段中已发生的表情片断占整个视频片断的比例;是一个尺度变量,权衡输入因子的重要性;为模型边界;表示片断包B的检测值由其包含的示例输出值决定,其中f是一个线性函数,定义如下:其中,表示视频片断VI的特征向量;对于一个训练集中的视频序列Vi,i=1,2,...,n,用Ii=[si,ei]来表示其标签信息,两个数字si和ei分别标明在第i个视频中,表情事件在该视频中开始和结束时对应的帧数,n对应所有视频序列的个数,Li表示视频序列Vi的总长度,即总的帧数;在每个时刻t=1,2,...Li,定义已经发生的部分表情用进行表示;在时刻t,表示一个视频从第1帧到第t帧所包含的片断子集:空集表示没有任何事件发生,表示一个视频序列中所有可能的片断集合,对于任意一个片断VI表示视频序列V中从第s帧到第e帧的片断。进一步,本专利技术所提出的方法,在步骤4)中,对于一个给定的含有Ci个约束对的视频序列,求得的权重向量的更新准则如下:进一步,本专利技术所提出的方法中,约束对的选取遵从如下两个准则:A、约束对中两个视频片断的重叠率不超过0.7:假定两个视频片断分别为V1和V2,s和e分别表示视频的起始和结束,两个视频片断的重叠率计算方法如下:B、约束对对于模型是有效的:根据当前的预检测函数,计算每个约束对的损失函数值,如果损失小于0,则约束对无效,反之,则为有效。进一步,本专利技术所提出的方法中,对待测试样本进行表情预检测过程如下:对于一个待识别的视频样本,逐帧读取样本数据,并根据历史数据输出每帧图像对应的检测值;假定初始时刻为t0,在时刻t,检测的输出值为:其中,对计算过程的数据进行保存,便于下一时刻t+1的运算,因为:当输出值大于某个阈值,即认为当前时刻检测到该表情事件,同样地,可以判断该表情事件何时结束,当检测到该表情事件结束时,清空历史数据,重新开始下一事件的检测。本专利技术还提出一种表情预检测装置,包括:预处理单元,用于对训练样本和测试样本中的表情视频进行预处理,得到对齐后的只包含人脸面部区域的视频;特征抽取单元,用于对预处理后表情视频中的每帧图像数据进行特征抽取,得到所有图像的特征表示;训练数据生成单元,用于提取表情视频中不同长度的表情片断构造约束对,用于模型训练;并基于多示例学习,把每个视频片断看作一个包,通过多样的示例构造和整合方式,得到视频片断的函数表示;OMEFD模型优化单元,根据逐个送入的训练样本,通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异对预检测模型实现在线更新,获得各个时刻的模型参数;预检测函数生成单元,根据OMEFD模型优化单元得到预检测函数;测试样本读取单元,逐帧读取测试样本并送入表情预检测单元;表情预检测单元,用于根据预检测函数对待测试样本进行表情预检测。本专利技术采用以上技术方案,与现有技术相比具有以下技术效果:1、本发本文档来自技高网...

【技术保护点】
1.一种基于视频的在线人脸表情预检测方法,其特征在于,包括:步骤1)、针对训练样本集,对表情视频预处理,通过面部关键点检测及人脸对齐方法,分割出人脸面部区域,并使整个视频中的脸部图像像素位置一致;步骤2)、提取每个样本视频中每帧图像的面部表情特征;步骤3)、将训练样本进行扩展,提取多个长度不同的视频片断构造约束对,并进行排序,使得信息量越大的片断对应的函数值越大;步骤4)、将每个视频的约束对作为模型当前时刻的训练数据,通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异,采用拉格朗日乘数法对模型进行优化,从而更新模型,获得各个时刻的线性表情预检测函数;步骤5)、针对测试样本,依次采用步骤1)至步骤2)处理,然后根据预检测函数,逐帧读取数据,输出每帧图像对应的检测值,最终根据预设的阈值实现表情预检测。

【技术特征摘要】
1.一种基于视频的在线人脸表情预检测方法,其特征在于,包括:步骤1)、针对训练样本集,对表情视频预处理,通过面部关键点检测及人脸对齐方法,分割出人脸面部区域,并使整个视频中的脸部图像像素位置一致;步骤2)、提取每个样本视频中每帧图像的面部表情特征;步骤3)、将训练样本进行扩展,提取多个长度不同的视频片断构造约束对,并进行排序,使得信息量越大的片断对应的函数值越大;步骤4)、将每个视频的约束对作为模型当前时刻的训练数据,通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异,采用拉格朗日乘数法对模型进行优化,从而更新模型,获得各个时刻的线性表情预检测函数;步骤5)、针对测试样本,依次采用步骤1)至步骤2)处理,然后根据预检测函数,逐帧读取数据,输出每帧图像对应的检测值,最终根据预设的阈值实现表情预检测。2.根据权利要求1所述的方法,其特征在于,步骤1)中的面部关键点提取,是基于深度卷积神经网络的人脸检测方法,提取复杂背景图像中人脸面部区域的5个关键点位置:两个眼睛中心点,鼻尖点和嘴角两个点。3.根据权利要求1所述的方法,其特征在于,步骤1)中的人脸对齐方法,是采用三对点法将训练样本和测试样本集中的人脸图像序列进行人脸关键点对齐;所述三对点法是指:固定两个眼睛中心点和鼻尖点这三个点的坐标位置,求取相应的仿射变换,通过变换将这三个关键点对齐到标准模板的坐标位置。4.根据权利要求1所述的方法,其特征在于,步骤2)所述面部表情特征,包括LBP纹理特征和SIFT特征。5.根据权利要求1所述的方法,其特征在于,步骤3)具体包括:步骤3.1、生成训练数据:对原始的训练样本进行扩展,从原始表情视频中提取多个不同长度的视频片断,每个视频片断对应一个检测期望值,用两个不同期望值的片断构建成一个约束对,将约束对的函数表示作为模型训练的训练数据;步骤3.2、基于多示例学习的视频片断表示:将每个视频片断看作一个包,包中的一个示例表示该片断的一个子集;示例的特征表示用首尾帧图像对应的特征表示相减得到,一个包的函数值是其所有示例的函数值的平均值。6.根据权利要求1或5任一所述的方法,其特征在于,步骤4)中,在时刻i,在线预检测更新模型如下:s.t.c1=Ii∩[1,t],其中,{wi,bi}代表在时刻i,模型需要求解的参数;γ表示平衡参数;Ci为训练样本Vi中提取出的约束对的个数,每个约束对包含两个包,c1和c2分别表示第c个约束对的两个包;代表模型中损失函数;表示训练样本Vi中抽取的约束对c中的两个视频片断的包,其中表示视频片段中已发生的表情片断占整个视频片断的比例;是一个尺度变量,权衡输入因子的重要性;为模型边界;表示片断包B的检测值...

【专利技术属性】
技术研发人员:谢利萍魏海坤张金霞张侃健
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1