用于自语音中识别情感的方法与装置制造方法及图纸

技术编号：18085508 阅读：56 留言：0更新日期：2018-05-31 14:01

本申请是关于自语音中识别情感的方法与装置。根据本申请一实施例的用于自语音中识别情感的方法可包括：接收音频信号、对所接收的音频信号进行数据清理、将所清理的音频信号分割成至少一段、对该至少一段执行特征提取以自该至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数、执行特征填充以基于长度门限将该若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至特征矩阵，以及对该特征矩阵执行机器学习推断以识别在该音频信号中所指示的情感。本申请实施例可适用于几乎任何尺寸的音频信号，且能实时识别整个语音的情感。

全部详细技术资料下载

【技术实现步骤摘要】
用于自语音中识别情感的方法与装置
本申请是关于情感识别技术，更具体的是关于自语音中识别情感的方法与装置。
技术介绍
人类间的语音沟通是非常复杂和微妙的，其不仅传递词汇形式的信息，而且也传递人们当前的精神状态。情感识别或理解发言人的精神状态对很多应用是非常重要和有利的，这些应用包括游戏，人机互动界面及虚拟代理等。心理学家已经研究情感识别领域很多年并已经得出了很多的理论。而另一方面，机器学习研究者也已探索这一领域，并取得了情感状态编码在语音中的共识。大多数现存在的语音系统可以有效处理演播室录制的、神经系统的语音，但在情感类的语音处理方面则性能很差。目前最先进的情感检测器在识别主要情感中的四至五类不同情感时仅有约40-50％的准确率。因此，情感类语音处理的问题还是语音识别方法和系统的有限功能，这可归因于语音中呈现的情感的建模和特征化的困难。综上，语音识别方面的改进仍是重要和紧迫的，以有效和准确地识别发言者的情感状态。
技术实现思路
本申请的目的之一是提供自语音中识别情感的方法和装置。根据本申请的一实施例,一用于自语音中识别情感的方法可包括：接收音频信号、对所接收的音频信号进行数据清理、将所清理的音频信号分割成至少一段、对该至少一段执行特征提取以自该至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数、执行特征填充以基于长度门限将该若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至特征矩阵，以及对该特征矩阵执行机器学习推断以识别在该音频信号中所指示的情感。在本申请的一实施例中，对所接收的音频信号执行数据清理进一步包含以下步骤中的至少一者：移除该音频信号中的噪音、基于...
用于自语音中识别情感的方法与装置

【技术保护点】
一种用于自语音中识别情感的方法，所述方法包括：接收音频信号；对所接收的音频信号进行数据清理；将所清理的音频信号分割成至少一段；对所述至少一段执行特征提取以自所述至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数；执行特征填充以基于长度门限将所述若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至特征矩阵；以及对所述特征矩阵执行机器学习推断以识别在所述音频信号中所指示的情感。

【技术特征摘要】
1.一种用于自语音中识别情感的方法，所述方法包括：接收音频信号；对所接收的音频信号进行数据清理；将所清理的音频信号分割成至少一段；对所述至少一段执行特征提取以自所述至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数；执行特征填充以基于长度门限将所述若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至特征矩阵；以及对所述特征矩阵执行机器学习推断以识别在所述音频信号中所指示的情感。2.根据权利要求1所述的方法，其中所述对所接收的音频信号执行数据清理进一步包含以下步骤中的至少一者：移除所述音频信号中的噪音；基于沉默门限移除所述音频信号在开头和结尾处的沉默；以及移除所述音频信号中较预定义门限短的声音碎片。3.根据权利要求2所述的方法，其中所述沉默门限为-50db。4.根据权利要求2所述的方法，其中所述预定义门限为1/4秒。5.根据权利要求1所述的方法，其中所述对所接收的音频信号执行数据清理进一步包括对所接收的音频信号执行带通滤波以控制所述音频信号的频率为100-400kHz。6.根据权利要求1所述的方法，其中所述对所述至少一段执行特征提取进一步包括自所述音频信号中提取发言者性别、响度、均一化频谱包络、功率谱分析、感性半宽度、情感方块及音调系数中的至少一者。7.根据权利要求1所述的方法，其中用于自所述至少一段中的每一者中提取梅尔频率倒谱系数和巴克频率倒谱系数的窗口的尺寸在10-500ms之间。8.根据权利要求1所述的方法,其中所述长度门限不小于1秒。9.根据权利要求1所述的方法,其中所述执行特征填充进一步包含：确定所述特征矩阵的长度是否达到所述长度门限；当所述特征矩阵的长度没有达到所述长度门限时，计算达到所述长度门限所需增加至所述特征矩阵的数据量；以及基于所计算的数据量，填充自后续段中提取的特征至所述特征矩阵中以扩展所述特征矩阵。10.根据权利要求1所述的方法,其中所述执行特征填充进一步包含：确定所述特征矩阵的长度是否达到所述长度门限；当所述特征矩阵的长度没有达到所述长度门限时，计算达到所述长度门限所需增加至所述特征矩阵的数据量；以及基于所计算的数据量，复制所述特征矩阵中的有效特征以扩展所述特征矩阵。11.根据权利要求9或10所述的方法,其进一步包含当所述特征矩阵的长度达到所述长度门限时跳出所述执行特征填充。12.根据权利要求1所述的方法，其中所述对所述特征矩阵执行机器学习推断进一步包含均一化和缩放所述特征矩阵。13.根据权利要求1所述的方法,其中所述对所述特征矩阵执行机器学习推断进一步包含将所述特征矩阵馈送至机器学习模型。14.根据权利要求13所述的方法，其中所述机器学习模型是神经网络。15.根据权利要求1所述的方法，其进一步包含训练机器学习模型以执行所述机器学习推断。16.根据权利要求15所述的方法，其中所述训练机器学习模型包含:优化若干模型超参数；自所优化的模型超参数中选择一组模型超参数；以及使用所选择的该组模型超参数测量所述机器学习模型的性能。17.根据权利要求16所述的方法，其中所述优化若干模型超参数进一步包含：产生所述若干超参数；使用所述若干超参数在采样数据上训练所述机器学习模型；以及在训练所述机器学习模型期间找出最佳的机器学习模型。18.根据权利要求16所述的方法，其中所述模型超参数是模型形状。19.根据权利要求1所述的方法，其中所述对所述特征矩阵执行机器学习推断进一步包含产生针对唤醒、性情和效价中的...

【专利技术属性】
技术研发人员：C·C·多斯曼，B·N·利亚纳盖，T·J·M·厄斯特勒姆，
申请(专利权)人：想象科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人