一种基于视频信息的情绪识别与跟踪方法技术

技术编号:11644850 阅读:132 留言:0更新日期:2015-06-25 03:59
本发明专利技术涉及一种基于视频信息的情绪识别与跟踪方法,其步骤为:1)获取图像并对其进行三维头部建模;2)借助生成的三维头部模型进行图像融合,形成连续情感表达以及与人无关的情感表达;3)使用生成的融合图像、三维头部模型以及其情绪值构造训练样本;4)使用构建的训练样本训练情绪识别模型;5)如有必要,在测试步骤执行之前进行一系列预处理操作,然后使用训练好的情绪识别模型,进行三维头部关键点的跟踪以及情绪的识别直至完成全部情绪识别任务。本发明专利技术不仅适用于离散情绪的识别,也适用于连续情感空间表达下的情绪识别,可以用于桌面场景与移动交互场景,不受视觉信息采集设备的限制,能够提升自然人机交互的质量。

【技术实现步骤摘要】

本专利技术属于人机交互领域,具体涉及一种通用的基于视频信息的情绪识别与跟踪 方法。
技术介绍
随着人机交互技术的发展,传统的人机交互技术已经逐渐向着智能交互和自然交 互等方向转变。人机交互关注的重点也从定义交互方式,设计交互语义等发展为关注用户 内心情感,进而挖掘用户隐式需求等。实现自然人机交互的主要任务之一在于使计算机能 够在与用户交互的过程中自然地感知用户的情感,追踪其情感变化,进而更主观地与其进 行思想上的交流及互动,或者推测用户内心的基本意愿等。由此可以看出,情绪识别在自然 人机交互中具有十分重要的意义。 研宄表明,使用视觉信息进行情感识别与分析比使用音频或者其他输入信息更加 准确,稳定。并且随着网络摄像头的普及以及当前处理器对于图像处理能力的增强,基于 视觉信息进行准确的情感识别已经变得可行。目前,已经有很多基于计算机视觉通道的自 然情绪识别方法。这些方法中的大部分致力于将情绪按类别进行描述(如喜悦,悲伤,轻蔑 等),并取得了较高的准确率,但是这些分类方法却很难在连续情绪空间(如PAD情感空间 等)中对情绪进行准确的分析与跟踪。除此之外,很多现有的方法可以在实验室中采集的 人工表演的表情数据上取得较高的识别效果,然而对于人机交互过程中的自然表情数据, 这些方法却很难达到与人工表演的表情数据相等同的识别精度。因此,有必要设计一个基 于视频信息的情绪识别与跟踪方法,使其能够同时适应离散情绪识别与连续情绪识别的要 求,并且使其能够在处理自然表情时具有和处理人工表演的表情时相同的情感分析能力。 基于视觉信息的情绪识别方法主要依靠的是从二维图像中提取出来的视觉特征。 在日常交互过程中,用户常常会出现头部大幅度刚体变换,面外翻转,面部局部遮挡,以及 外部光照变化等情况。对于这些情况,二维图像特征具有较弱的鲁棒性,常常会造成情绪识 别的错误。为了解决上述问题,部分方法采用深度摄像机进行图像采样,并使用获得的三维 视觉特征进行情绪识别。这种方式增强了方法的稳定性和准确性,但是三维摄像机价格昂 贵而且体积较大,会对交互操作增加一定限制,大大降低用户的使用体验。除此之外,相比 于已经在各类终端完全普及的二维网络摄像头,三维摄像机并没有完全普及,这也在一定 程度上限制了使用深度图像特征提取设备的方法的普及与发展。因此,如何确定一种方式, 使其可以通过二维图像恢复其对应的三维特征,进而使用恢复的三维特征对情绪进行更加 鲁棒的识别,同时不受到视频采集设备的限制,也是当前情绪识别领域亟待解决的问题。
技术实现思路
本专利技术针对上述问题,提出。该方法使 用普通二维摄像头或者三维摄像头对图像信息进行采集,借助三维头部数据库恢复个性化 的三维头部模型,并使用机器学习模型同时对三维头部关键点的位置以及用户情绪进行实 时估计与跟踪。其特点在于,在同时不受到任何设备的制约的前提下,将三维信息引入到情 绪的识别与计算之中。该方法在离散情绪表达与连续情绪表达的场景下都有较好的识别效 果,同时可以很好地克服头部大角度快速运动,头部面外翻转,以及外部光照变化等情况, 识别效果较为稳定,并且可以在各种终端,各类场景中通用,甚至在移动终端的交互场景中 也可以正常工作。 本专利技术采用的技术方案如下: -种基于视频信息的情绪识别与跟踪方法,该方法包括情绪识别模型的训练与在 线情绪估计与跟踪两部分,其中情绪识别模型的训练可以分为三维头部建模,图像融合情 感表达,以及情绪识别模型构建等内容。下面进行具体说明。 1.三维头部建模 该步骤对获取的二维或三维训练图像进行个性化三维头部建模,具体步骤包括: 1)对所选训练图像的面部关键点进行标定; 2)针对标定后的图像选择二维头部基本表情t吴型; 3)在所选的三维头部基本表情模型的辅助下,重建训练样本的三维头部模型。 进一步地,用于构建情绪识别模型的图像应该能够覆盖大部分的情绪状态,包含 大角度的头部刚体运动以及面外翻转情况,以及包含光照变化,部分面部遮挡等情况。 2.图像融合情感表达 为了充分排除其他特殊因素对于情绪的影响,该步骤使用合成的三维头部模型作 为辅助,进行图像的融合,进而获取相应情绪的动态视觉特征。针对融合对象以及融合目的 的不同,融合的结果可以分为连续情感表达(Continuous Emotion Presentation,CEP)以 及与人无关的情感表达(User Independent Emotion Presentation,UIEP)两种。其中,连 续情感表达旨在包含情绪在时序上的上下文信息,与人无关的情感表达旨在构造与用户个 性化特征无关的情绪特征。图像融合的具体步骤包括: 1)恢复每幅图像的三维头部模型; 2)将恢复的三维头部模型置于三维相机坐标系的正交位置,并将位于正交位置的 头部模型的三维关键点投影至摄像机的二维成像面坐标系; 3)计算投影后的关键点与原来图像关键点对之间的单应变换矩阵; 4)通过计算得到的单应变换矩阵,将训练样本中的每幅二维图像与其相邻帧的头 部区域变换至面部区域坐标系的正交位置,这里的面部区域坐标系以鼻尖点为坐标原点。 随后对得到的图像进行叠加,构成融合情绪图像。 进一步地,上述操作中图像的叠加操作即为将不同图像相同位置的图像特征值叠 加,并取均值。对于头部面外翻转的情况,其进行单应性变化之后可能会对应至原图像中不 存在的区域,此时将对应区域的图像特征统一设定为某一定值。 3.情绪识别模型构建 借助于重构的三维头部模型以及通过图像融合得到的动态视觉特征,一个可以同 时执行三维关键点位置估计以及自然情绪估计的情绪识别模型得以被设计并实现,其构建 步骤为: 1)对三维头部模型进行平移、旋转等刚体变换,用以模拟其前后时刻可能出现的 位置区域,同时扩充训练样本的数量,进而构建出数量足够的训练样本集合; 2)提取训练情绪识别模型所需的视觉特征; 3)使用步骤1)生成的训练样本集合以及步骤2)中提取的视觉特征训练情绪识别 模型。 进一步地,步骤2)中对应的视觉特征不局限于融合图像上的特征,也包括恢复的 三维头部模型中对应的一系列高维特征,如深度信息,三维头部曲面参数等。 进一步地,步骤3)中对应的情绪识别模型采用机器学习中的回归模型。模型采 用多重回归模式,在运行过程中同时对三维头部关键点的位置以及用户情绪进行估计和跟 踪。为保证机器学习模型的准确性与健壮性,随机选取全部训练样本中的一部分对情绪识 别模型进行构建以避免过拟合现象的发生。 4.在线情绪估计与跟踪 基于构造的情绪识别模型,用户在交互行为中的情绪可以以一种回归的方式被在 线地计算出来,即可实现在线情绪的识别与跟踪。其步骤为: 1)必要时,进行测试前的一系列预处理操作,如生成三维头部模型恢复集,情绪恢 复集以及计算第一帧对应的三维头部模型及其情绪值等; 2)结合当前输入帧图像与其前面若干帧图像及其对应的三维头部模型,计算当前 时刻的连续情感表达图像(CEP); 3)在当前时刻的连续情感表达图像上提取测试特征; 4)将测试特征置于回归模型中,得到备选结果; 5)将所有备选结果进行筛选,排除不符合备选条件的结果。如果存在可以接受的 结果,则使用符合条件的所有备选结果计算三维关键点位置回归量以及本文档来自技高网
...

【技术保护点】
一种基于视频信息的情绪识别与跟踪方法,其步骤包括:1)获取二维或三维训练图像,并对其进行个性化三维头部建模;2)借助生成的三维头部模型进行图像融合,形成包含时间上下文信息以及与用户无关的情绪特征的动态视觉特征;3)使用生成的融合图像、三维头部模型以及其情绪值构造训练样本;4)使用构建的训练样本训练情绪识别模型;5)使用训练好的情绪识别模型,进行三维头部关键点的跟踪以及情绪的识别,直至完成全部情绪识别任务。

【技术特征摘要】

【专利技术属性】
技术研发人员:王宏安李江东陈辉张凤军
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1