用于自语音中识别情感的方法与装置制造方法及图纸

技术编号:18085508 阅读:56 留言:0更新日期:2018-05-31 14:01
本申请是关于自语音中识别情感的方法与装置。根据本申请一实施例的用于自语音中识别情感的方法可包括:接收音频信号、对所接收的音频信号进行数据清理、将所清理的音频信号分割成至少一段、对该至少一段执行特征提取以自该至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数、执行特征填充以基于长度门限将该若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至特征矩阵,以及对该特征矩阵执行机器学习推断以识别在该音频信号中所指示的情感。本申请实施例可适用于几乎任何尺寸的音频信号,且能实时识别整个语音的情感。

【技术实现步骤摘要】
用于自语音中识别情感的方法与装置
本申请是关于情感识别技术,更具体的是关于自语音中识别情感的方法与装置。
技术介绍
人类间的语音沟通是非常复杂和微妙的,其不仅传递词汇形式的信息,而且也传递人们当前的精神状态。情感识别或理解发言人的精神状态对很多应用是非常重要和有利的,这些应用包括游戏,人机互动界面及虚拟代理等。心理学家已经研究情感识别领域很多年并已经得出了很多的理论。而另一方面,机器学习研究者也已探索这一领域,并取得了情感状态编码在语音中的共识。大多数现存在的语音系统可以有效处理演播室录制的、神经系统的语音,但在情感类的语音处理方面则性能很差。目前最先进的情感检测器在识别主要情感中的四至五类不同情感时仅有约40-50%的准确率。因此,情感类语音处理的问题还是语音识别方法和系统的有限功能,这可归因于语音中呈现的情感的建模和特征化的困难。综上,语音识别方面的改进仍是重要和紧迫的,以有效和准确地识别发言者的情感状态。
技术实现思路
本申请的目的之一是提供自语音中识别情感的方法和装置。根据本申请的一实施例,一用于自语音中识别情感的方法可包括:接收音频信号、对所接收的音频信号进行数据清理、将所清理的音频信号分割成至少一段、对该至少一段执行特征提取以自该至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数、执行特征填充以基于长度门限将该若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至特征矩阵,以及对该特征矩阵执行机器学习推断以识别在该音频信号中所指示的情感。在本申请的一实施例中,对所接收的音频信号执行数据清理进一步包含以下步骤中的至少一者:移除该音频信号中的噪音、基于沉默门限移除该音频信号在开头和结尾处的沉默,以及移除该音频信号中较预定义门限短的声音碎片。该沉默门限可为-50db,该预定义门限可为1/4秒。在本申请的另一实施例中,对所接收的音频信号执行数据清理可进一步包括对所接收的音频信号执行带通滤波以控制该音频信号的频率为100-400kHz。根据本申请的一实施例,对该至少一段执行特征提取进一步可包括自该音频信号中提取发言者性别、响度、均一化频谱包络、功率谱分析、感性半宽度、情感方块及音调系数中的至少一者。用于自该至少一段中的每一者中提取梅尔频率倒谱系数和巴克频率倒谱系数的窗口的尺寸可在10-500ms之间。在本申请的另一实施例中,该长度门限不小于1秒。执行特征填充可进一步包含:确定该特征矩阵的长度是否达到该长度门限;当该特征矩阵的长度没有达到该长度门限时,计算达到该长度门限所需增加至该特征矩阵的数据量;以及基于所计算的数据量,填充自后续段中提取的特征至该特征矩阵中以扩展该特征矩阵。根据本申请的一实施例,当该特征矩阵的长度没有达到该长度门限时,基于所计算的数据量,复制该特征矩阵中的有效特征以扩展该特征矩阵。而且,该方法可进一步包含当该特征矩阵的长度达到该长度门限时跳出该执行特征填充。根据本申请的一实施例,对该特征矩阵执行机器学习推断进一步可包含均一化和缩放该特征矩阵。此外,对该特征矩阵执行机器学习推断进一步可包含将该特征矩阵馈送至机器学习模型。该机器学习模型可以是神经网络。在本申请的另一实施例中,该方法进一步可包含训练机器学习模型以执行该机器学习推断。根据本申请的一实施例,训练机器学习模型可包含:优化若干模型超参数、自所优化的模型超参数中选择一组模型超参数,以及使用所选择的该组模型超参数测量该机器学习模型的性能。优化若干模型超参数可进一步包含:产生该若干超参数、使用该若干超参数在采样数据上训练该机器学习模型,以及在训练该机器学习模型期间找出最佳的机器学习模型。该模型超参数可以是模型形状。在本申请的一实施例中,对该特征矩阵执行机器学习推断可进一步包含产生针对唤醒、性情和效价中的至少一者的情感分数。所产生的情感分数可被组合在一起。本申请的另一实施例提供了一用于自语音中识别情感的装置,其包含处理器以及存储器。其中用于实施自语音中识别情感的方法的计算机可编程指令存储在该存储器中,且该处理器经配置以执行该计算机可编程指令以实施该自语音中识别情感的方法。该自语音中识别情感的方法可以是前述的或其它根据本申请实施例的方法。本申请的又一实施例提供了一种非暂时性的、计算机可读存储媒质,具有存储于其内的计算机可编程指令。其中该计算机可编程指令经编程以实施前述的或其它根据本申请实施例的自语音中识别情感的方法。本申请实施例可适用于几乎任何尺寸的音频信号,且能实时识别整个语音的情感。此外,通过训练机器学习模型,本申请实施例可在效率和准确性上精益求精。附图说明为描述本申请所取得的优点和特征的方式,本申请的描述通过结合附图演示的具体的实施例展开。这些附图仅描述了本申请的示例性实施例,并不能因此而被认为用于限制本申请的范围。附图1是演示根据本申请一实施例的用于自语音中识别情感的系统的方块图附图2是演示根据本申请一实施例的用于自语音中识别情感的方法的流程图附图3是演示根据本申请一实施例的用于将特征填充至特征矩阵的方法的流程图附图4是演示根据本申请一实施例的用于训练机器学习模型的方法的流程图具体实施方式附图的详细说明意在作为本申请的当前优选实施例的说明,而非意在代表本申请能够得以实现的仅有形式。应理解的是,相同或等同的功能可以由意在包含于本申请的精神和范围之内的不同实施例完成。语音是包含消息、发言者、语言、情感等信息的复杂信号。了解发言者的情感对很多应用都是有用的,这些应用包括呼叫中心、虚拟代理及其它神经用户接口。当前的语音系统仅在有效处理潜在情感时可达到与人类等同的性能。而复杂的语音系统并不应局限于单纯的消息处理,相反,应该通过检测语音中的表达而理解发言者的潜在倾向。相应的,自语音中识别情感近些年来已逐渐成为重要的领域。根据本申请的一实施例,情感信息可以声波的形式存储,该声波随时间变化。单一的声波可通过组合若干不同频率而形成。使用傅里叶变换,使得将单一声波转换回分量频率(componentfeature)成为可能。由分量频率指示的信息包含特定的频率和它们相对于彼此的功率。本申请的实施例可提高自语音中识别情感的效率和准确性。同时,根据本申请实施例的用于自语音中识别情感的方法和装置可足够稳定地处理实时和吵闹的语音以识别情感。根据本申请的一实施例,一用于自语音中识别情感的方法的基本阶段可包括:接收音频信号、对所接收的音频信号进行数据清理、将所清理的音频信号分割成至少一段、对该至少一段执行特征提取以自该至少一段中提取若干梅尔频率倒谱系数Melfrequencycepstralcoefficients)和若干巴克频率倒谱系数(Barkfrequencycepstralcoefficients)、执行特征填充以基于长度门限将该若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至特征矩阵,以及对该特征矩阵执行机器学习推断以识别在该音频信号中所指示的情感。本申请实施例的更多细节将结合附图在下文做进一步演示。附图1是演示根据本申请一实施例的用于自语音中识别情感的系统100的方块图。如图1所示,该用于自语音中识别情感的系统100可包含至少一用于接收和记录该语音的硬件12,以及用于自根据本申请的实施例中识别情感的装置14。该至少一硬件设备12和用于自语音中识本文档来自技高网...
用于自语音中识别情感的方法与装置

【技术保护点】
一种用于自语音中识别情感的方法,所述方法包括:接收音频信号;对所接收的音频信号进行数据清理;将所清理的音频信号分割成至少一段;对所述至少一段执行特征提取以自所述至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数;执行特征填充以基于长度门限将所述若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至特征矩阵;以及对所述特征矩阵执行机器学习推断以识别在所述音频信号中所指示的情感。

【技术特征摘要】
1.一种用于自语音中识别情感的方法,所述方法包括:接收音频信号;对所接收的音频信号进行数据清理;将所清理的音频信号分割成至少一段;对所述至少一段执行特征提取以自所述至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数;执行特征填充以基于长度门限将所述若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至特征矩阵;以及对所述特征矩阵执行机器学习推断以识别在所述音频信号中所指示的情感。2.根据权利要求1所述的方法,其中所述对所接收的音频信号执行数据清理进一步包含以下步骤中的至少一者:移除所述音频信号中的噪音;基于沉默门限移除所述音频信号在开头和结尾处的沉默;以及移除所述音频信号中较预定义门限短的声音碎片。3.根据权利要求2所述的方法,其中所述沉默门限为-50db。4.根据权利要求2所述的方法,其中所述预定义门限为1/4秒。5.根据权利要求1所述的方法,其中所述对所接收的音频信号执行数据清理进一步包括对所接收的音频信号执行带通滤波以控制所述音频信号的频率为100-400kHz。6.根据权利要求1所述的方法,其中所述对所述至少一段执行特征提取进一步包括自所述音频信号中提取发言者性别、响度、均一化频谱包络、功率谱分析、感性半宽度、情感方块及音调系数中的至少一者。7.根据权利要求1所述的方法,其中用于自所述至少一段中的每一者中提取梅尔频率倒谱系数和巴克频率倒谱系数的窗口的尺寸在10-500ms之间。8.根据权利要求1所述的方法,其中所述长度门限不小于1秒。9.根据权利要求1所述的方法,其中所述执行特征填充进一步包含:确定所述特征矩阵的长度是否达到所述长度门限;当所述特征矩阵的长度没有达到所述长度门限时,计算达到所述长度门限所需增加至所述特征矩阵的数据量;以及基于所计算的数据量,填充自后续段中提取的特征至所述特征矩阵中以扩展所述特征矩阵。10.根据权利要求1所述的方法,其中所述执行特征填充进一步包含:确定所述特征矩阵的长度是否达到所述长度门限;当所述特征矩阵的长度没有达到所述长度门限时,计算达到所述长度门限所需增加至所述特征矩阵的数据量;以及基于所计算的数据量,复制所述特征矩阵中的有效特征以扩展所述特征矩阵。11.根据权利要求9或10所述的方法,其进一步包含当所述特征矩阵的长度达到所述长度门限时跳出所述执行特征填充。12.根据权利要求1所述的方法,其中所述对所述特征矩阵执行机器学习推断进一步包含均一化和缩放所述特征矩阵。13.根据权利要求1所述的方法,其中所述对所述特征矩阵执行机器学习推断进一步包含将所述特征矩阵馈送至机器学习模型。14.根据权利要求13所述的方法,其中所述机器学习模型是神经网络。15.根据权利要求1所述的方法,其进一步包含训练机器学习模型以执行所述机器学习推断。16.根据权利要求15所述的方法,其中所述训练机器学习模型包含:优化若干模型超参数;自所优化的模型超参数中选择一组模型超参数;以及使用所选择的该组模型超参数测量所述机器学习模型的性能。17.根据权利要求16所述的方法,其中所述优化若干模型超参数进一步包含:产生所述若干超参数;使用所述若干超参数在采样数据上训练所述机器学习模型;以及在训练所述机器学习模型期间找出最佳的机器学习模型。18.根据权利要求16所述的方法,其中所述模型超参数是模型形状。19.根据权利要求1所述的方法,其中所述对所述特征矩阵执行机器学习推断进一步包含产生针对唤醒、性情和效价中的...

【专利技术属性】
技术研发人员:C·C·多斯曼B·N·利亚纳盖T·J·M·厄斯特勒姆
申请(专利权)人:想象科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1