一种基于多模态情感识别的虚拟学习环境自然交互方法技术

技术编号:15762344 阅读:231 留言:0更新日期:2017-07-05 21:19
本发明专利技术请求保护一种基于多模态情感识别的虚拟学习环境自然交互方法,包括:获取表征学生学习状态的表情、姿态和语音信息,构建基于彩色图像、深度信息、语音信号和骨骼信息的多模态情感特征;对彩色和深度图像进行人脸检测、预处理和特征提取,用支持向量机SVM和AdaBoost方法混合进行人脸表情分类;其次对语音情感信息进行预处理和情感特征的提取,利用隐马尔可夫模型对语音情感进行识别;对骨骼信息进行规则化处理得到人体姿势表示向量,用多类支持向量机SVM进行姿势情感分类;对三类情感的识别结果构建求积规则融合算法在决策层进行融合,根据融合结果生成虚拟智能体的表情、语音和姿势等情感表现。

A method of natural interaction in virtual learning environment based on multimodal emotion recognition

The invention provides a natural interaction method, virtual learning environment based on multi modal emotion recognition includes: obtaining the characterization of students' learning state expression, posture and voice information, constructing multi-modal feeling color image, depth information, speech signal and information based on the characteristics of skeletal sense; face detection, preprocessing and feature extraction of the color and depth images of facial expression classification using support vector machine SVM and AdaBoost mixed method; extraction followed by pretreatment and emotional characteristics of speech emotion information, make the speech emotion recognition using hidden Markov model; rule processing posture vector of skeletal information, pose sentiment classification by multi class support vector machine SVM; identification of three kinds of emotional results construct quadrature rules fusion algorithm in decision layer, root According to the fusion result, the emotional expression such as facial expression, voice and gesture of the virtual agent is generated.

【技术实现步骤摘要】
一种基于多模态情感识别的虚拟学习环境自然交互方法
本专利技术涉及情感识别、多模态、人机交互技术、虚拟现实、教育等领域,具体涉及一种基于多模态情感识别的虚拟学习环境自然交互方法。
技术介绍
虚拟学习环境是虚拟现实技术与课堂教学的有机结合,通过在虚拟环境中构建课堂教学场景、授课策略、教学内容等,可以打破时间、空间、教学资源的限制,让学生“身临其境”地体验各种教学实验实践过程,加强对各种原理、概念、方法的理解,提升学生的学习兴趣和效果。虚拟学习环境的建立是一项集成性的、综合性技术,涉及到虚拟现实、机器学习、情感设计、人机交互等多方面的内容,通过计算机生成一个完全逼真的,集视、听、触、情等多种感知的虚拟课堂环境,使学习者有效融人学习场景,给予学习者自然、真实感受的同时,更能从数字化虚拟空间自由获得丰富、准确的信息与知识。这种学习环境非常重视学习者的情感体验,强调为学习者提供符合其特点与需求的实时、互动课程,并重视学习效果以及学习方法的建议与反馈。情感信息对人们的行为决策具有重大影响,这使得情感计算在虚拟学习环境及人机交互中占有极其重要的作用,直接影响学习环境的沉浸感,决定着虚拟学习环境的实用性和学习效果。人的情感表达一般有语音、面部表情、姿势、文本等多种模态。人脸表情包含了的一定的情感信息,它是人类情感表达的主要方式。语音除了传达了语言信息,同时也可能包含情感信息,如说话声音的快慢与高低。姿势也是情感表达的重要方式,一般情况下,人们会用点头、摇头、挥手等肢体动作来传递情感。随着计算机技术的发展,人脸表情识别、语音交互、姿势识别等单模人机交互方式已经取得了不错的成果。然而在虚拟学习环境中,仅凭人的表情,语音或者姿势等信息难以准确传达人们的真实情感。因此融合语音、表情、姿势的多模态人机交互技术,对虚拟学习环境的构建具有十分重要的意义。通过多模态的情感交互技术,计算机通过传感器来获取学习者的语音、面部表情、姿势动作等多种信息,来观测人的情感变化,理解学习者的学习状态,实时改变教学策略与方法,进而驱动学习者调整学习状态与兴趣。多模态情感交互利用了每种模态的特性,同时使各种模态相辅相成,大大提高了人机交互的准确性,还使得人机交互变得更加自然、高效。一般认为生气、高兴、伤心、害怕、厌恶、惊奇、中性是人类的七种基本情感。这是情感识别中最常用的分类标准,虚拟学习环境中多模态情感识别主要也是对这七种情感来进行分类。常用的多模态融合技术有两种类型,分别是特征层融合和决策层融合。特征层融合就是先提取各个模态的特征,再将这些特征创建成一个总的特征向量用于情感识别。决策层融合就是提取各个模态特征后,将其分别输入其各自的分类器,再使用某种规则和方法,将各个分类器的结果进行融合决策,得到融合后的情感信息。显然,传统基于鼠标、键盘的人机交互方式,严重制约了虚拟学习环境的实用性与真实感,难以满足虚拟学习环境中情感交互需求。2011年,微软公司开发的集图像识别、视频捕捉、语音控制等多种技术于一体的体感器Kinect,实现了用户不需要借助任何手持设备,即可与计算机进行自然交互,大幅降低了操作成本,为实现自然人机交互提供了一种有效方法。当前情感计算、人机交互技术已引起世界各国的高度重视,国内外研究者对人脸表情识别、姿势识别、语音识别等单模态情感识别进行了广泛的研究。一些研究者基于穿戴视觉的指示和图标以及语音命令实现双模态人机交互,但很大程度上制约了人机交互的自由性和灵活性。然而,到目前为止,一些公开发表的论文和专利大多着重于单模态情感计算、双模态情感识别及其人机交互应用。在虚拟学习环境中,仅凭人的表情,语音或者姿势等单模态情感识别信息难以准确传达学生的真实情感。而对于如何构建基于表情、语音、姿势的多模态情感识别方法及其虚拟学习环境的自然交互方式目前国内外尚缺少有效研究,尚没有关于该方面的专利申请。所以我们提出了一种基于多模态情感识别的虚拟学习环境自然交互方法,创新性提出一种在虚拟学习环境中融合语音、面部表情、姿势等多模态情感信息,识别学生的学习状态,实时调整虚拟教师的授课策略与行为表达,驱动学习者调整学习状态与兴趣,提高虚拟学习环境的交互实时性与自然性,极大的提高学习效果。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种提高了准确性、高效性和自然性的基于多模态情感识别的虚拟学习环境自然交互方法。本专利技术的技术方案如下:一种基于多模态情感识别的虚拟学习环境自然交互方法,其包括以下步骤:101、获取表征学生表情、语音信息和姿态的彩色图像、深度图像、语音信号和骨骼信息的多模态情感特征;102、首先对彩色图像和深度图像进行分类人脸检测、预处理和特征提取,用支持向量机SVM和AdaBoost方法混合进行人脸表情识别;其次对语音情感信息进行预处理和情感特征的提取,利用隐马尔可夫模型对语音情感进行识别;然后对骨骼信息进行规则化处理得到人体姿势表示向量,用多类支持向量机SVM进行姿势情感分类识别;103、对步骤102的人脸表情识别结果、语音情感识别结果、姿势感情识别结果采用求积规则融合算法在决策层进行融合,根据融合结果来驱动虚拟学习环境中虚拟教师决策模块,选择相应教学策略和行为动作,生成虚拟智能体的表情、语音和姿势在内的情感表现,进一步的,所述步骤102对彩色图像和深度图像进行人脸检测包括:将所获取的彩色和深度信息通过Kinect中的基于Harr特征的boosted级联分类器去区分图像区域中的人脸部分和非人脸部分以进行人脸检测。进一步的,所述对分类人脸检测后的图像进行预处理和特征提取,包括步骤:对图像进行预处理包括归一化、灰度图转化和直方图均衡化,对预处理后图像分别用Gabor小波特征提取方法对彩色图像进行特征提取和用基于深度值统计分布的方法对深度图像进行特征提取;从彩色图中提取出的特征和从对应深度图中提取出的特征拼接在一起,则形成该表情图像的人脸表情特征,还采用PCA方法对其进行特征降维。进一步的,所述得到人脸表情特征后用支持向量机SVM和AdaBoost方法混合进行人脸表情训练、分类和识别,核函数选择径向基函数RBF:K(x,y)=exp(-γ||x-y||2),γ表示核参数,x表示样本,y表示样本标签值;然后用一对一方法进行构造多类分类器,对n个类别构建n(n-1)/2个分类器,通过投票的方法进行分类判断,再对脸部表情进行训练和识别;利用AdaBoost训练方法加强SVM分类器的分类能力,首先归一化各个SVM分类器的权重,对每个分类器计算错误率;若分类错误,更新权重,错误率小的分类器被赋以较小的权值,错误率高的分类器被赋予较大的权值。进一步的,所述步骤102中语音情感信息进行预处理包括以下步骤:对语音信号进行预加重、分帧和加窗三种预处理,预加重选用预加重数字滤波器进行处理,分帧通过用可移动有限长度窗口进行加权实现,加窗语音信号Sw(n)通过窗函数s(n)和语音信号w(n)相乘得到。进一步的,对经过预加重、分帧和加窗预处理后的语音信号进行特提取包括:选取了语速、基频特征、能量特征、MFCC特征、共振峰特征进行提取,这些特征融合了声音韵律、声音质量和基于谱的相关特征。进一步的,步骤102中骨骼信息是通过骨骼追踪技术从深度图分离得到,获取骨骼信息后本文档来自技高网
...
一种基于多模态情感识别的虚拟学习环境自然交互方法

【技术保护点】
一种基于多模态情感识别的虚拟学习环境自然交互方法,其特征在于,包括以下步骤:101、获取表征学生表情、语音信息和姿态的彩色图像、深度图像、语音信号和骨骼信息的多模态情感特征;102、首先对彩色图像和深度图像进行分类人脸检测、预处理和特征提取,用支持向量机SVM和AdaBoost方法混合进行人脸表情识别;其次对语音情感信息进行预处理和情感特征的提取,利用隐马尔可夫模型对语音情感进行识别;然后对骨骼信息进行规则化处理得到人体姿势表示向量,用多类支持向量机SVM进行姿势情感分类识别;103、对步骤102的人脸表情识别结果、语音情感识别结果、姿势感情识别结果采用求积规则融合算法在决策层进行融合,根据融合结果来驱动虚拟学习环境中虚拟教师决策模块,选择相应教学策略和行为动作,生成虚拟智能体的表情、语音和姿势在内的情感表现。

【技术特征摘要】
1.一种基于多模态情感识别的虚拟学习环境自然交互方法,其特征在于,包括以下步骤:101、获取表征学生表情、语音信息和姿态的彩色图像、深度图像、语音信号和骨骼信息的多模态情感特征;102、首先对彩色图像和深度图像进行分类人脸检测、预处理和特征提取,用支持向量机SVM和AdaBoost方法混合进行人脸表情识别;其次对语音情感信息进行预处理和情感特征的提取,利用隐马尔可夫模型对语音情感进行识别;然后对骨骼信息进行规则化处理得到人体姿势表示向量,用多类支持向量机SVM进行姿势情感分类识别;103、对步骤102的人脸表情识别结果、语音情感识别结果、姿势感情识别结果采用求积规则融合算法在决策层进行融合,根据融合结果来驱动虚拟学习环境中虚拟教师决策模块,选择相应教学策略和行为动作,生成虚拟智能体的表情、语音和姿势在内的情感表现。2.根据权利要求1所述的基于多模态情感识别的虚拟学习环境自然交互方法,其特征在于,所述步骤102对彩色图像和深度图像进行人脸检测包括:将所获取的彩色和深度信息通过Kinect中的基于Harr特征的boosted级联分类器去区分图像区域中的人脸部分和非人脸部分以进行人脸检测。3.根据权利要求2所述的基于多模态情感识别的虚拟学习环境自然交互方法,其特征在于,所述对分类人脸检测后的图像进行预处理和特征提取,包括步骤:对图像进行预处理包括归一化、灰度图转化和直方图均衡化,对预处理后图像分别用Gabor小波特征提取方法对彩色图像进行特征提取和用基于深度值统计分布的方法对深度图像进行特征提取;从彩色图中提取出的特征和从对应深度图中提取出的特征拼接在一起,则形成该表情图像的人脸表情特征,还采用PCA方法对其进行特征降维。4.根据权利要求3所述的基于多模态情感识别的虚拟学习环境自然交互方法,其特征在于,所述得到人脸表情特征后用支持向量机SVM和AdaBoost方法混合进行人脸表情训练、分类和识别,核函数选择径向基函数RBF:K(x,y)=exp(-γ||x-y||2),γ表示核参数,x表示样本,y表示样本标签值;然后用一对一方法进行构造多类分类器,对n个类别构建n(n-1)/2个分类器,通过投票的方法进行分类判断,再对脸部表情进行训练和识别;利用AdaBoost训练方法加强SVM分类器的分类...

【专利技术属性】
技术研发人员:蔡林沁陈双双徐宏博虞继敏杨洋
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1