一种面向人机交互的多类信息耦合的情感识别方法技术

技术编号:10733243 阅读:112 留言:0更新日期:2014-12-10 10:28
本发明专利技术公开了一种基于深度学习的多类信息耦合的情感识别方法,其特征是按如下步骤进行:1获取人脸表情的视频数据以及语音数据;2对文本内容进行文本特征提取,获得文本信息特征;3提取语音数据的韵律学特征和整体语音特征并进行耦合,获得语音信息特征;3对视频数据进行进行图像特征提取,获得表情信息特征;4对文本信息特征、语音信息特征和表情信息特征进行耦合,获得综合信息特征;5利用深度学习方法对综合信息特征进行数据优化,并利用分类器对优化的综合信息特征进行训练,获得情感识别模型,以情感识别模型实现对多类信息耦合的情感识别。本发明专利技术能全面结合文本、语音和视频三个方面的数据信息,从而提高人机交互中的情感状态判断的准确度。

【技术实现步骤摘要】
一种面向人机交互的多类信息耦合的情感识别方法
本专利技术属于自然语言处理技术与情感计算领域,具体地说,是一种深度学习的人机交互多信息情感分析方法。
技术介绍
情感计算指的是让机器能够有识别理解人类情感的能力。人类表达情感中使用的文本,语音和图像等信息形式中都蕴含着能够代表情感的特征值。通过提取这些特征值,使用机器学习方法,让机器去自己学习特征值中蕴含的情感信息,即让机器能够懂得人类情感。当前存在的识别方法主要有:单独对文本识别的方法,大多使用了TF-IDF等模型对文本进行情感识别,大多需要对文本进行预处理,同时在多语种和多分类识别中正确率较低;单独对语音识别的方法,多只使用韵律学特征或基于频谱的整体特征,韵律学特征中蕴含强烈情感的特征值较难提取并且受到噪音影响较大,而基于频谱的特征在一些单独反映强烈情感部分的表现较差;在结合多信息识别领域,大多是文本与语音,语音和视频两两结合,没有考虑到人际交互是一个三种信息共同传递交互的过程;因此,仅仅分析其中一两点特征是无法全面的表述人类会话中的情感传递,导致了情感分析不够准确;在特征模型的训练方面,使用一般机器学习的方法,面对大维度大数量级的数据,训练和预测存在着困难。
技术实现思路
本专利技术是为了克服现有技术存在的不足之处,提出一种基于深度学习的面向人机交互的多类信息耦合的情感识别方法,能全面结合文本、语音和视频三个方面的数据信息,从而提高人机交互中的情感状态判断的准确度。本专利技术为解决技术问题采取如下技术方案:本专利技术一种基于深度学习的多类信息耦合的情感识别方法,其特点是按如下步骤进行:步骤1:利用摄像头装置和麦克风同步获取人脸表情的视频数据以及语音数据,并对所述视频数据进行情感分类;步骤2:通过语音识别工具对所获得的语音数据进行语音识别,获得与所述语音数据对应的文本内容;步骤3:利用N-gram算法对所述文本内容进行文本特征提取,获得第一信息特征,即文本信息特征;步骤4:利用分词工具对所述文本内容进行分词,获得分词结果;利用情感词典找到分词结果中包含的情感词并标记为情感特征词;步骤5:利用梅尔频率倒谱系数对所述语音数据进行语音特征提取,获得整体语音特征;步骤6:根据所述分词结果对所述语音数据进行端点检测,获得语音段;步骤7:提取所述语音段的韵律学特征,所述韵律学特征包括语速、振幅特征、基音周期和共振峰;步骤8:将所述韵律学特征和整体语音特征进行耦合,获得第二信息特征,即语音信息特征;步骤9:根据所述语音段对所述视频数据进行划分,获得图像集;并对所述图像集进行图像特征提取,获得第三信息特征,即表情信息特征;步骤10:对所述本信息特征、语音信息特征和表情信息特征进行耦合,获得综合信息特征;步骤11:利用深度学习方法对所述综合信息特征进行数据优化,获得优化的综合信息特征;步骤12:利用分类器对所述优化的综合信息特征进行训练,获得情感识别模型,以所述情感识别模型实现对多类信息耦合的情感识别。本专利技术基于深度学习的多类信息耦合的情感识别方法的特点也在于:所述步骤3是按如下步骤进行:步骤3.1、选取两个字作为词w的长度l,即l=2,记为两字词w2;步骤3.2、利用式(1)获得在所述文本内容中任意一个两字词的共现概率p(w2),从而获得所有两字词的共现概率:式(1)中,表示所述两字词w2中的第1个字;表示所述两字词w2中的第2个字;步骤3.3、按照每个两字词在所述文本内容中的顺序,将所有两字词的共现概率依次排序并存入信息特征向量VT1中;步骤3.4、选取三个字作为词w的长度l,即l=3,记为三字词w3,步骤3.5、利用式(2)获得在所述文本内容中任意一个三字词的共现概率p(w3),从而获得所有三字词的共现概率:式(2)中,表示所述三字词w3中的第1个字;表示所述三字词w3中的第2个字;表示所述三字词w3中的第3个字;步骤3.6、按照每个三字词在所述文本内容中的顺序,将所有三字词的共现概率依次排序并存入信息特征向量VT2中;步骤3.7、选取四个字作为词w的长度l,即l=4,记为四字词w4,步骤3.8、利用式(3)获得在所述文本内容中任意一个四字词的共现概率p(w4),从而获得所有四字词的共现概率:式(3)中,表示所述四字词w4中的第1个字;表示所述四字词w4中的第2个字;表示所述四字词w4中的第3个字;表示所述四字词w4中的第4个字;步骤3.8、按照每个四字词在所述文本内容中的顺序,将所有四字词的共现概率依次排序并存入信息特征向量VT3中;步骤39、利用式(4)获得第一信息特征VT:VT=VT1+VT2+VT3(4)。所述步骤4是按如下步骤进行:步骤4.1、利用分词工具对所述文本内容进行分词,获得分词结果;所述分词结果为依次排序的词语,将所述分词结果存入本地语音词典库;步骤4.2、利用情感词典找到分词结果中包含的情感词并标记为情感特征词;对所述情感特征词进行情感标注,获得相应的情感种类并将所述情感特征词和相应的情感种类存入本地语音词典库。所述步骤5是按如下步骤进行:步骤5.1、利用高通滤波器对所述语音数据进行预处理,获得平滑的语音信号;步骤5.2、对所述平滑的语音数据取N个采样点为一帧进行分帧处理,获得分帧后的语音信号S(n);步骤5.3、利用式(3)所示的加窗函数W(n),通过式(2)对所述分帧后的语音信号S(n)进行加窗处理,获得加窗后的语音信号S′(n);S′(n)=S(n)+W(n)(2)式(3)中,a为调整系数,a∈(0,1);步骤5.4、利用式(4)对所述加窗后的语音信号S′(n)进行快速傅里叶变换,获得倒谱的语音信号Xa(K):步骤5.5、利用梅尔滤波器组对所述倒谱的语音信号Xa(K)进行滤波,获得加卷的语音信号;步骤5.6、利用离散余弦变换对所述加卷的语音信号进行解卷,获得静态的梅尔频率倒谱参数SMFCC;步骤5.7、对所述静态的梅尔频率倒谱参数进行动态差分计算,获得一阶差分的梅尔频率倒谱参数d1MFCC;步骤5.8、对所述一阶差分的梅尔频率倒谱参数进行动态差分计算,获得二阶差分的梅尔频率倒谱参数d2MFCC;步骤5.7、利用式(5)对所述静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合,获得整体语音特征MFCC:所述步骤6是利用双门限端点检测算法,对所述语音数据进行划分,删除语音中的静音和噪音部分,获得语音片段并标记出所述语音片段的起始帧与结束帧,从而获得语音段。所述步骤9是按如下步骤进行:步骤9.1、对所述视频数据进行分帧处理,获得逐帧的图像序列;步骤9.2、利用所述语音片段的起始帧与结束帧对所述图像序列进行划分,获得与所述语音片段相对应的图像序列的起始帧与结束帧,从而获得图象集;步骤9.3、利用人脸检测方法获得人脸表情的i个特征定位点,利用所述特征定位点对所述图像集中的每一帧图像进行定位,获得每一帧图像中的定位点,从而获得定位点集合Vi=(Vi1,Vi2,…,Viω);ω表示图象集中的帧数;步骤9.4、利用式(6)获得所述图象集的任意个定位点的方差从而获得定位点集合中所有定位点的方差:以所述定位点Vi和定位点集合中所有定位点的方差作为第三类信息特征。所述深度学习方法是将所述综合信息特征作为RBM模型的输入值,经过R本文档来自技高网...

【技术保护点】
一种基于深度学习的多类信息耦合的情感识别方法,其特征是按如下步骤进行:步骤1:利用摄像头装置和麦克风同步获取人脸表情的视频数据以及语音数据,并对所述视频数据进行情感分类;步骤2:通过语音识别工具对所获得的语音数据进行语音识别,获得与所述语音数据对应的文本内容;步骤3:利用N‑gram算法对所述文本内容进行文本特征提取,获得第一信息特征,即文本信息特征;步骤4:利用分词工具对所述文本内容进行分词,获得分词结果;利用情感词典找到分词结果中包含的情感词并标记为情感特征词;步骤5:利用梅尔频率倒谱系数对所述语音数据进行语音特征提取,获得整体语音特征;步骤6:根据所述分词结果对所述语音数据进行端点检测,获得语音段;步骤7:提取所述语音段的韵律学特征,所述韵律学特征包括语速、振幅特征、基音周期和共振峰;步骤8:将所述韵律学特征和整体语音特征进行耦合,获得第二信息特征,即语音信息特征;步骤9:根据所述语音段对所述视频数据进行划分,获得图像集;并对所述图像集进行图像特征提取,获得第三信息特征,即表情信息特征;步骤10:对所述本信息特征、语音信息特征和表情信息特征进行耦合,获得综合信息特征;步骤11:利用深度学习方法对所述综合信息特征进行数据优化,获得优化的综合信息特征;步骤12:利用分类器对所述优化的综合信息特征进行训练,获得情感识别模型,以所述情感识别模型实现对多类信息耦合的情感识别。...

【技术特征摘要】
1.一种基于深度学习的多类信息耦合的情感识别方法,其特征是按如下步骤进行:步骤1:利用摄像头装置和麦克风同步获取人脸表情的视频数据以及语音数据,并对所述视频数据进行情感分类;步骤2:通过语音识别工具对所获得的语音数据进行语音识别,获得与所述语音数据对应的文本内容;步骤3:利用N-gram算法对所述文本内容进行文本特征提取,获得第一信息特征,即文本信息特征;步骤4:利用分词工具对所述文本内容进行分词,获得分词结果;利用情感词典找到分词结果中包含的情感词并标记为情感特征词;步骤5:利用梅尔频率倒谱系数对所述语音数据进行语音特征提取,获得整体语音特征;步骤6:根据所述分词结果对所述语音数据进行端点检测,获得语音段;步骤7:提取所述语音段的韵律学特征,所述韵律学特征包括语速、振幅特征、基音周期和共振峰;步骤8:将所述韵律学特征和整体语音特征进行耦合,获得第二信息特征,即语音信息特征;步骤9:根据所述语音段对所述视频数据进行划分,获得图像集;并对所述图像集进行图像特征提取,获得第三信息特征,即表情信息特征;步骤10:对所述本信息特征、语音信息特征和表情信息特征进行耦合,获得综合信息特征;步骤11:利用深度学习方法对所述综合信息特征进行数据优化,获得优化的综合信息特征;步骤12:利用分类器对所述优化的综合信息特征进行训练,获得情感识别模型,以所述情感识别模型实现对多类信息耦合的情感识别。2.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法,其特征是:所述步骤3是按如下步骤进行:步骤3.1、选取两个字作为词w的长度l,即l=2,记为两字词w2;步骤3.2、利用式(1)获得在所述文本内容中任意一个两字词的共现概率p(w2),从而获得所有两字词的共现概率:式(1)中,表示所述两字词w2中的第1个字;表示所述两字词w2中的第2个字;步骤3.3、按照每个两字词在所述文本内容中的顺序,将所有两字词的共现概率依次排序并存入信息特征向量VT1中;步骤3.4、选取三个字作为词w的长度l,即l=3,记为三字词w3,步骤3.5、利用式(2)获得在所述文本内容中任意一个三字词的共现概率p(w3),从而获得所有三字词的共现概率:式(2)中,表示所述三字词w3中的第1个字;表示所述三字词w3中的第2个字;表示所述三字词w3中的第3个字;步骤3.6、按照每个三字词在所述文本内容中的顺序,将所有三字词的共现概率依次排序并存入信息特征向量VT2中;步骤3.7、选取四个字作为词w的长度l,即l=4,记为四字词w4,步骤3.8、利用式(3)获得在所述文本内容中任意一个四字词的共现概率p(w4),从而获得所有四字词的共现概率:式(3)中,表示所述四字词w4中的第1个字;表示所述四字词w4中的第2个字;表示所述四字词w4中的第3个字;表示所述四字词w4中的第4个字;步骤3.8、按照每个四字词在所述文本内容中的顺序,将所有四字词的共现概率依次排序并存入信息特征向量VT3中;步骤3.9、利用式(4)获得第一信息特征VT:VT=VT1+VT2+VT3(4)。3.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法,其特征是:所述步骤4是按如下步骤进行:步骤4.1、利用分词工具对所述文本内容进行分词...

【专利技术属性】
技术研发人员:孙晓陈炜亮李承程任福继
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1