基于多模态情绪识别系统的语音信号分析子系统技术方案

技术编号:19595623 阅读:36 留言:0更新日期:2018-11-28 05:39
本发明专利技术公开了一种基于多模态情绪识别系统的语音信号分析子系统,它包括数据采集设备、输出设备,其特征在于:它还包括情绪分析软件系统,所述情绪分析软件系统通过对所述数据采集设备得到的数据进行综合分析推理,最终把结果输出至所述输出设备上;所述情绪分析软件系统包括基于语音信号的情绪识别子系统。本发明专利技术突破性的打通了五大单模态的情绪识别,创新性的利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断,大幅度的提高了准确率,适用于绝大多数一般问询互动类应用场景。

【技术实现步骤摘要】
基于多模态情绪识别系统的语音信号分析子系统
本专利技术涉及情绪设别
,具体而言,尤其涉及机器学习、深度学习、计算机视觉、自然语言处理、语音识别、人体动作识别、非接触式生理检测等基于多模态情绪识别系统的语音信号分析子系统。
技术介绍
情绪识别,是一种判断人的情绪变化的技术,主要是通过收集人的外在表情和行为变化,对人的心理状态进行推断。在现代社会,情绪识别技术以及被广泛应用于智能设备开发、销售导购机器人、健康管理、广告营销等方面。情绪是一种综合了人的感觉、思想和行为的状态,它包括人对外界或自身刺激的心理反应,也包括伴随这种心理反应的生理反应。在各种人-机交互系统(比如机器人,审讯系统等)里,如果系统能识别出人的情绪状态,人与机器的交互就会变得更加友好和自然。因此,对情绪进行分析和识别是神经科学、心理学、认知科学、计算机科学和人工智能等领域的一项重要的交叉学科研究课题。对于情绪的研究由来已久,使用的方法也各不相同。近年来,随着脑电信号采集设备的应用和推广,信号处理和机器学习技术的快速发展,以及计算机数据处理能力的大幅提高,基于脑电的情绪识别研究已经成为神经工程和生物医学工程领域的热门课题。对应于不同的情绪诱发方法,情绪识别方法也各不相同,常见的情绪识别方法主要分为两大类:基于非生理信号的识别和基于生理信号的识别。基于非生理信号的情绪识别方法主要包括对面部表情和语音语调的识别。面部表情识别方法是根据表情与情绪间的对应关系来识别不同的情绪,在特定情绪状态下人们会产生特定的面部肌肉运动和表情模式,如心情愉悦时嘴角会上翘,眼部会出现环形褶皱;愤怒时会皱眉,睁大眼睛等。目前,面部表情识别多采用图像识别的方法来实现。语音语调识别方法是根据不同情绪状态下人们的语言表达方式的不同来实现的,如心情愉悦时说话的语调会比较欢快,烦躁时语调会比较沉闷。基于非生理信号识别方法的优点是操作简单,不需要特殊设备。缺点是不能保证情绪识别的可靠性,因为人们可以通过伪装面部表情和语音语调来掩饰自己的真实情绪,而这种伪装往往不易被发现。其次,对于患有某些特殊疾病的残疾人来说,基于非生理信号识别的方法往往难以实现。由于脑电信号十分微弱,因此在采集过程中,必须通过高放大倍数的放大器对脑电信号进行信号放大。目前商业化的脑电信号放大器的体积普遍较大,不利于便携式使用。最近出现了芯片化的脑电信号放大器,可以有效解决放大器体积过大问题,但是成本仍然较高,离实用化还有一定的距离。所以很显然,基于生理信号的情绪识别方法都需要复杂和昂贵的信号测量采集系统去得到较准确的生物信号,无法在广泛的场景中应用,特别是在一些特殊场景,比如刑侦、审讯等中,需要隐秘测量时,这些方法都不可用。因为情绪是个体对外界刺激的主观的有意识的体验和感受,具有心理和生理反应的特征,人们希望不需要直接观测内在的感受,但是我们能够通过其外显的行为或生理变化来进行推断,这就是现在更加推崇的情绪识别方法。而在这一类方法里,大部分情绪识别主要是对表情意义的识别。其识别方法主要是借助于面部大的肌肉群的运动进行的。但没有综合人的表情、说的文字、体态、语音语调和生理特征等。现有技术中,例如:《多模态智能情绪感知系统》,公开号:CN107220591A。该技术提及了一种多模态智能情绪感知系统,包括采集模块、识别模块、融合模块,所述识别模块包括基于表情的情绪识别单元、基于语音的情绪识别单元、基于行为的情绪识别单元、以及基于生理信号的情绪识别单元,所述识别模块中的各情绪识别单元对多模态信息进行识别,从而获得情绪分量,所述情绪分量包含情绪类型和情绪强度,所述融合模块将所述识别模块的情绪分量进行融合实现人体情绪的准确感知。
技术实现思路
针对现有技术中存在的问题,本专利技术就创新性的提出综合人的表情、文字、语音、体态和生理信号5大模态的情绪识别方法和系统。相比较过去的类似专利技术专利(例如:公开号CN107220591A),本专利技术在以下几个方面有着根本上的突破。1.本专利技术中可穿戴设备不是必须设备,我们创新性的提出只需要获取视频录像以及声音信号即可。2.本专利技术针对生理信号的特征提取是通过创新的非接触式微特征放大方式去获得,该创新点大大降低了成本和提高了产品的使用方便性。3.本专利技术在基本的文本情绪分析基础上,还提出了多轮对话的综合情绪分析。该创新点不仅提高了每个局部对话单元的情绪分析,还提供了对整个对话过程的情绪综合把握。4.本专利技术还在动作识别的基础上,创新性的专利技术了基于人体姿态的情绪识别。并且本专利技术提出的体态情绪识别是把人的主要体态识别为关键节点的变化。5.本专利技术在综合每个单模态为总的情绪识别时,创新性的提出了基本神经网络RNN的基于时序的情绪对应、关联和推理。为了实现上述专利技术目的,本专利技术采用的技术方案为:一种基于多模态情绪识别系统的语音信号分析子系统,它包括数据采集设备、输出设备,其特征在于:它还包括情绪分析软件系统,所述情绪分析软件系统通过对所述数据采集设备得到的数据进行综合分析推理,最终把结果输出至所述输出设备上;所述情绪分析软件系统包括基于语音信号的情绪识别子系统。上述的基于多模态情绪识别系统的语音信号分析子系统,其进一步特征在于:所述基于语音信号的情绪识别子系统,基频、时长、音质和清晰度等声学参数是情绪的语音特征量,建立情绪语音数据库,不断提取新的语音特征量是语音情绪识别的基本方法。上述的基于多模态情绪识别系统的语音信号分析子系统,其进一步特征在于:所述基于语音信号的情绪识别子系统,基于神经网络MLP(多层感知模型)的对语音信号进行情绪识别的模型,首先,对连续的语音信号进行切分(segmentation),从而得到离散的声音细小单元,这些细小单元有部分重叠,从而让模型更加好的分析当前单元,并且了解前后的上下文语音单元;之后模型提取语音能量(energy)曲线信息;再下一步,子系统提取基频(pitch)曲线信息,音调特征由基频特征来刻画和构造,通过采用autocorrelation方法去提取基频曲线。上述的基于多模态情绪识别系统的语音信号分析子系统,其进一步特征在于:所述情绪分析软件系统还包括基于面部图像表情的情绪识别子系统、基于文本语义的情感分析子系统、基于人体姿态的情绪识别子系统、基于生理信号的情绪识别子系统,以及基于多轮对话语义理解子系统和基于时序的多模态情绪语义融合关联判断子系统。上述的基于多模态情绪识别系统的语音信号分析子系统,其进一步特征在于:所述基于面部图像表情的情绪识别子系统是在特定的情绪状态下人们会产生特定的表情模式,基于动态图像序列和表情图像的运动信息,基于区域的光流模型和基准光流算法从复杂背景和多姿态表情序列中有效地获得运动场信息;所述基于文本语义的情感分析子系统,文本情绪分析可分为词语、句子、篇章三个级别,基于词语的方法是分析情绪特征词,根据阈值判断词语极性或者计算词汇语义的相似度;基于句子的方法是对每个句子采样情绪标签,抽取评价词语或者获取评价短语进行分析;基于篇章的方法是在句子情绪倾向分析的基础上进行篇章的整体情绪倾向性分析;所述基于人体姿态的情绪识别子系统,提取身体各种情绪状态下的典型样例,对每个姿势进行判别分析出相近情绪的细微差别,建立特征库,根据人体动作的持续时间、频率等运本文档来自技高网
...

【技术保护点】
1.一种基于多模态情绪识别系统的语音信号分析子系统,它包括数据采集设备、输出设备,其特征在于:它还包括情绪分析软件系统,所述情绪分析软件系统通过对所述数据采集设备得到的数据进行综合分析推理,最终把结果输出至所述输出设备上;所述情绪分析软件系统包括基于语音信号的情绪识别子系统。

【技术特征摘要】
1.一种基于多模态情绪识别系统的语音信号分析子系统,它包括数据采集设备、输出设备,其特征在于:它还包括情绪分析软件系统,所述情绪分析软件系统通过对所述数据采集设备得到的数据进行综合分析推理,最终把结果输出至所述输出设备上;所述情绪分析软件系统包括基于语音信号的情绪识别子系统。2.根据权利要求1所述的基于多模态情绪识别系统的语音信号分析子系统,其特征在于:所述基于语音信号的情绪识别子系统,基频、时长、音质和清晰度等声学参数是情绪的语音特征量,建立情绪语音数据库,不断提取新的语音特征量是语音情绪识别的基本方法。3.根据权利要求2所述的基于多模态情绪识别系统的语音信号分析子系统,其特征在于:所述基于语音信号的情绪识别子系统,基于神经网络MLP(多层感知模型)的对语音信号进行情绪识别的模型,首先,对连续的语音信号进行切分(segmentation),从而得到离散的声音细小单元,这些细小单元有部分重叠,从而让模型更加好的分析当前单元,并且了解前后的上下文语音单元;之后模型提取语音能量(energy)曲线信息;再下一步,子系统提取基频(pitch)曲线信息,音调特征由基频特征来刻画和构造,通过采用autocorrelation方法去提取基频曲线。4.根据权利要求1或2或3所述的基于多模态情绪识别系统的语音信号分析子系统,其特征在于:所述情绪分析软件系统还包括基于面部图像表情的情绪识别子系统、基于文本语义的情感分析子系统、基于人体姿态的情绪识别子系统、基于生理信号的情绪识别子系统,以及基于多轮对话语义理解子系统和基于时序的多模态情绪语义融合关联判断子系统。5.根据权利要求4所述的基于多模态情绪识别系统的语音信号分析子系统,其特征在于:所述基于面部图像表情的情绪识别子系统是在特定的情绪状态下人们会产生特定的表情模式,基于动态图像序列和表情图像的运动信息,基于区域的光流模型和基准光流算法从复杂背景和多姿态表情序列中有效地获得运动场信息;所述基于文本语义的情感分析子系统,文本情绪分析可分为词语、句子、篇章三个级别,基于词语的方法是分析情绪特征词,根据阈值判断词语极性或者计算词汇语义的相似度;基于句子的方法是对每个句子采样情绪标签,抽取评价词语或者获取评价短语进行分析;基于篇章的方法是在句子情绪倾向分析的基础上进行篇章的整体情绪倾向性分析;所述基于人体姿态的情绪识别子系统,提取身体各种情绪状态下的典型样例,对每个姿势进行判别分析出相近情绪的细微差别,建立特征库,根据人体动作的持续时间、频率等运动性质作为评判依据,从中提取物理运动信息来进行识别;所述基于文本语义的情感分析子系统,基于深度卷积神经网络CNN改进的一个情绪识别方法,子系统利用在目标领域内产生的词汇语义向量对问题领域内的文本进行情绪分类,它的输入是以矩阵表示的句子或者文档,矩阵的每一行对应于一个分词元素,每一行是表示一个单词的向量,这些向量都是wordembeddings(一种高维度向量表示)的形式,从上一模块获得,或者根据词在词表中的索引;子系统的第二层是卷积神经网络层;子系统的第三层是基于时间的聚会层,从前一个卷积层提取出的特征信息当中,找出它们在时间轴上的关联关系,将前一层中的每个特征矩阵中的时间维度上的相应变化总结归纳,从而形成更加浓缩的特征信息;子系统的第四层是最后的全连接预测层,首先是将前一层得到的浓缩的特征信息,进行全排列和组合并搜索所有可能的相应权重组合,从而发现它们之间的共同作用的方式;下一个内部层是Dropout层,指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了,再下一个内部层是tanh(双曲线函数),这是一个非线性的逻辑转化,最后一个内部层是softmax,它是多分类中常用的激活函数,是基于逻辑回归的,它将每个需要需要预测的可能类别的概率进行锐化,从而使得预测的类别脱颖而出;所述基于人体姿态的情绪识别子系统,基于动作识别的情绪提取是指根据数据输入源,首先进行运动数据的表征和建模,再进行情绪的建模,得到关于动作和情绪的两套表征数据;之后运用现有的基于运动数...

【专利技术属性】
技术研发人员:俞旸凌志辉
申请(专利权)人:南京云思创智信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1