基于多模态情绪识别系统的语音信号分析子系统技术方案

技术编号：19595623 阅读：36 留言：0更新日期：2018-11-28 05:39

本发明专利技术公开了一种基于多模态情绪识别系统的语音信号分析子系统，它包括数据采集设备、输出设备，其特征在于：它还包括情绪分析软件系统，所述情绪分析软件系统通过对所述数据采集设备得到的数据进行综合分析推理，最终把结果输出至所述输出设备上；所述情绪分析软件系统包括基于语音信号的情绪识别子系统。本发明专利技术突破性的打通了五大单模态的情绪识别，创新性的利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断，大幅度的提高了准确率，适用于绝大多数一般问询互动类应用场景。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态情绪识别系统的语音信号分析子系统
本专利技术涉及情绪设别
，具体而言，尤其涉及机器学习、深度学习、计算机视觉、自然语言处理、语音识别、人体动作识别、非接触式生理检测等基于多模态情绪识别系统的语音信号分析子系统。
技术介绍
情绪识别，是一种判断人的情绪变化的技术，主要是通过收集人的外在表情和行为变化，对人的心理状态进行推断。在现代社会，情绪识别技术以及被广泛应用于智能设备开发、销售导购机器人、健康管理、广告营销等方面。情绪是一种综合了人的感觉、思想和行为的状态，它包括人对外界或自身刺激的心理反应，也包括伴随这种心理反应的生理反应。在各种人-机交互系统(比如机器人，审讯系统等)里，如果系统能识别出人的情绪状态，人与机器的交互就会变得更加友好和自然。因此，对情绪进行分析和识别是神经科学、心理学、认知科学、计算机科学和人工智能等领域的一项重要的交叉学科研究课题。对于情绪的研究由来已久，使用的方法也各不相同。近年来，随着脑电信号采集设备的应用和推广，信号处理和机器学习技术的快速发展，以及计算机数据处理能力的大幅提高，基于脑电的情绪识别研究已经成为神经工程和生物医学工程领域的热门课题。对应于不同的情绪诱发方法，情绪识别方法也各不相同，常见的情绪识别方法主要分为两大类:基于非生理信号的识别和基于生理信号的识别。基于非生理信号的情绪识别方法主要包括对面部表情和语音语调的识别。面部表情识别方法是根据表情与情绪间的对应关系来识别不同的情绪，在特定情绪状态下人们会产生特定的面部肌肉运动和表情模式，如心情愉悦时嘴角会上翘，眼部会出现环形褶皱；愤怒时会皱眉，睁大眼睛...

【技术保护点】
1.一种基于多模态情绪识别系统的语音信号分析子系统，它包括数据采集设备、输出设备，其特征在于：它还包括情绪分析软件系统，所述情绪分析软件系统通过对所述数据采集设备得到的数据进行综合分析推理，最终把结果输出至所述输出设备上；所述情绪分析软件系统包括基于语音信号的情绪识别子系统。

【技术特征摘要】
1.一种基于多模态情绪识别系统的语音信号分析子系统，它包括数据采集设备、输出设备，其特征在于：它还包括情绪分析软件系统，所述情绪分析软件系统通过对所述数据采集设备得到的数据进行综合分析推理，最终把结果输出至所述输出设备上；所述情绪分析软件系统包括基于语音信号的情绪识别子系统。2.根据权利要求1所述的基于多模态情绪识别系统的语音信号分析子系统，其特征在于：所述基于语音信号的情绪识别子系统，基频、时长、音质和清晰度等声学参数是情绪的语音特征量，建立情绪语音数据库，不断提取新的语音特征量是语音情绪识别的基本方法。3.根据权利要求2所述的基于多模态情绪识别系统的语音信号分析子系统，其特征在于：所述基于语音信号的情绪识别子系统，基于神经网络MLP(多层感知模型)的对语音信号进行情绪识别的模型，首先，对连续的语音信号进行切分(segmentation)，从而得到离散的声音细小单元，这些细小单元有部分重叠，从而让模型更加好的分析当前单元，并且了解前后的上下文语音单元；之后模型提取语音能量(energy)曲线信息；再下一步，子系统提取基频(pitch)曲线信息，音调特征由基频特征来刻画和构造，通过采用autocorrelation方法去提取基频曲线。4.根据权利要求1或2或3所述的基于多模态情绪识别系统的语音信号分析子系统，其特征在于：所述情绪分析软件系统还包括基于面部图像表情的情绪识别子系统、基于文本语义的情感分析子系统、基于人体姿态的情绪识别子系统、基于生理信号的情绪识别子系统，以及基于多轮对话语义理解子系统和基于时序的多模态情绪语义融合关联判断子系统。5.根据权利要求4所述的基于多模态情绪识别系统的语音信号分析子系统，其特征在于：所述基于面部图像表情的情绪识别子系统是在特定的情绪状态下人们会产生特定的表情模式，基于动态图像序列和表情图像的运动信息，基于区域的光流模型和基准光流算法从复杂背景和多姿态表情序列中有效地获得运动场信息；所述基于文本语义的情感分析子系统，文本情绪分析可分为词语、句子、篇章三个级别，基于词语的方法是分析情绪特征词，根据阈值判断词语极性或者计算词汇语义的相似度；基于句子的方法是对每个句子采样情绪标签，抽取评价词语或者获取评价短语进行分析；基于篇章的方法是在句子情绪倾向分析的基础上进行篇章的整体情绪倾向性分析；所述基于人体姿态的情绪识别子系统，提取身体各种情绪状态下的典型样例，对每个姿势进行判别分析出相近情绪的细微差别，建立特征库，根据人体动作的持续时间、频率等运动性质作为评判依据，从中提取物理运动信息来进行识别；所述基于文本语义的情感分析子系统，基于深度卷积神经网络CNN改进的一个情绪识别方法，子系统利用在目标领域内产生的词汇语义向量对问题领域内的文本进行情绪分类，它的输入是以矩阵表示的句子或者文档，矩阵的每一行对应于一个分词元素，每一行是表示一个单词的向量，这些向量都是wordembeddings(一种高维度向量表示)的形式，从上一模块获得，或者根据词在词表中的索引；子系统的第二层是卷积神经网络层；子系统的第三层是基于时间的聚会层，从前一个卷积层提取出的特征信息当中，找出它们在时间轴上的关联关系，将前一层中的每个特征矩阵中的时间维度上的相应变化总结归纳，从而形成更加浓缩的特征信息；子系统的第四层是最后的全连接预测层，首先是将前一层得到的浓缩的特征信息，进行全排列和组合并搜索所有可能的相应权重组合，从而发现它们之间的共同作用的方式；下一个内部层是Dropout层，指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点暂时认为不是网络结构的一部分，但是它的权重得保留下来(只是暂时不更新而已)，因为下次样本输入时它可能又得工作了，再下一个内部层是tanh(双曲线函数)，这是一个非线性的逻辑转化，最后一个内部层是softmax，它是多分类中常用的激活函数，是基于逻辑回归的，它将每个需要需要预测的可能类别的概率进行锐化，从而使得预测的类别脱颖而出；所述基于人体姿态的情绪识别子系统，基于动作识别的情绪提取是指根据数据输入源，首先进行运动数据的表征和建模，再进行情绪的建模，得到关于动作和情绪的两套表征数据；之后运用现有的基于运动数...

【专利技术属性】
技术研发人员：俞旸，凌志辉，
申请(专利权)人：南京云思创智信息科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人