语音情绪辨识方法技术

技术编号:16483393 阅读:42 留言:0更新日期:2017-10-31 15:51
一种语音情绪辨识方法。本方法包括:从一语音数据库中取得多个语音信号,将多个语音特征、多个非线性特征以及多个宏观特征组合成多组特征组合,且提取此些语音信号中每一个第一语音信号的所述语音特征所述非线性特征以及所述宏观特征以获得多个已计算特征。本方法还包括:从此些已计算特征中选出多个目标特征量;使用此些目标特征量训练一语音情绪分类模型以获得对应所述特征组合的多个辨识率;以及根据所述辨识率从特征组合中选出多个目标特征组合。本方法还包括:根据所述目标特征组合与所述语音情绪分类模型执行语音情绪辨识操作。

Speech emotion recognition method

A method of speech emotion recognition. The method includes: obtaining a plurality of voice signals from a speech database, a plurality of voice features, multiple nonlinear characteristics and multiple macro characteristics of combination of multi group feature combination, and extract the feature of each of the first voice signal of the non linear characteristics and the macroscopic characteristics of the speech signal in order to obtain a plurality of calculated characteristics. The method also includes some selected features have been calculated from multiple target characteristics; using the object features a speech emotion classification training model to obtain a plurality of identification corresponding to the feature combination rate; and identification rate from feature combinations to select multiple targets according to the feature combination. The method also comprises the following steps: performing speech emotion recognition operation according to the target feature combination and the speech emotion classification model.

【技术实现步骤摘要】
语音情绪辨识方法
本专利技术涉及一种语音情绪辨识方法,且特别涉及一种语音情绪分类模型的建立方法,与使用所建立的语音情绪分类模型来辨识所接收的语音信号所对应的情绪的方法,以及使用此方法的语音情绪辨识系统。
技术介绍
近年来,由于人工智能、机器学习与网络信息的快速发展,人们与智能型电子装置之间的沟通模式,已不再是过去以指令输入至电子装置,而电子装置再以文字回应的方式所能满足。因此,通过最自然且方便的“语音”沟通媒介来进行智能型电子装置的控制将成为未来的趋势。举例而言,在不同领域都已经有许多事情可以由机器取代,如会议安排、语言学习、语音服务、新闻播报、汽车驾驶等等,但如果仅仅只是由机器单方面提供制式化的回应服务,容易忽略使用者实际的感受与使用状况,导致使用者的使用经验不佳,因此让机器检测人类所要表达的情绪讯息,接着给予最适当的回应是一项重要的机制。据此,为了使人机接口系统更为多样性与人性化,许多学者、厂商则莫不开始着手研究情绪的辨识。目前语音情绪辨识技术是采用将语音信号进行音框的切割,并对所切割的音框进行特征提取,再经由既有语音情绪数据库讯练出蕴含能够区分语音情绪种类的超平面(hyper-plane)的分类模型。然而,此传统的语音情绪辨识技术一般仅藉由微观的音框角度来分析情绪,而无法展现出人类完整的微观与宏观情绪变化,由此使得语音情绪辨识结果容易受限于藉由音框所采集的微观或局部的语音特征量。再者,由录音所得的一维语音信号无法全部表示出真实语音的三维传递特性,且传统语音特征也较难完整描述真实语音的非线性特性。因此,如何提高情绪辨识的正确率,亦为目前研究的重要一环。
技术实现思路
本专利技术提供一种语音情绪辨识方法,其能够藉由提取语音数据库所提供的语音信号的三大类特征来建立语音情绪分类模型,以提升所建立的语音情绪分类模型的情绪辨识率,所述三大类特征包含语音特征、非线性特征与宏观特征。特别是,通过准确地分辨使用者或他人目前的情绪,可有效地提升人机互动的成效与沟通效果。本专利技术的一范例实施例提出一种语音情绪辨识方法,此方法包括:从一语音数据库中取得多个语音信号,将多个语音特征、多个非线性特征以及多个宏观特征组合成多组特征组合,且提取此些语音信号中每一个第一语音信号的所述语音特征,所述非线性特征以及所述宏观特征以获得多个已计算特征,其中每一个特征组合包括至少一语音特征,至少一非线性特征与至少一宏观特征的其中之一或其组合。本方法还包括:从此些已计算特征中选出多个目标特征量;使用此些目标特征量训练一语音情绪分类模型以获得对应所述特征组合的多个辨识率;以及使用此些目标特征组合训练一语音情绪分类模型。本方法还包括:根据所述辨识率从所述特征组合中选出多个目标特征组合,以及根据所述目标特征组合与语音情绪分类模型执行语音情绪辨识操作。在本专利技术的一范例实施例中,上述提取所述语音信号中的每一个第一语音信号的语音特征,非线性特征以及宏观特征以获得所述已计算特征的步骤包括:切割每一个第一语音信号为多个音框,并计算每一个第一语音信号的每一个音框的语音特征与非线性特征;以及获得对应每一个未切割的第一语音信号的情绪起伏趋势,并计算对应每一个未切割的第一语音信号的所述情绪起伏趋势的非线性特征。在本专利技术的一范例实施例中,上述获得对应每一个未切割的第一语音信号的所述情绪起伏趋势的步骤包括:使用经验模态分解算法或移动平均算法分析每一个整段的第一语音信号,以获得对应每一个未切割的第一语音信号的情绪起伏趋势。其中使用经验模态分解算法分析每一个整段的第一语音信号的步骤包括:将每一个整段的第一语音信号分解为多个本质模态函数,并根据所述本质模态函数中最末项的本质模态函数取得所述情绪起伏趋势。在本专利技术的一范例实施例中,上述从所述已计算特征中选出所述目标特征量的步骤包括:统计每一个第一语音信号的音框所对应的已计算特征与每一个第一语音信号的情绪起伏趋势所对应的已计算特征,以获得每一个第一语音信号对应于一个已计算特征的多个统计量。在本专利技术的一范例实施例中,上述从所述已计算特征中选出所述目标特征量的步骤包括:使用费雪鉴别比算法与基因算法从每一个第一语音信号对应于一个已计算特征的统计量中选出多个特征统计量,并获得所述特征统计量所对应的所述目标特征量。在本专利技术的一范例实施例中,上述使用所述目标特征量训练所述语音情绪分类模型以获得对应所述特征组合的辨识率的步骤包括:根据所述目标特征量取得可区分所述语音信号的情绪的一最佳分割超平面;使用所述语音信号中每一个第二语音信号验证此最佳分割超平面,其中所述第二语音信号不同于所述第一语音信号;以及根据所述语音情绪分类模型获得对应此些特征组合的辨识率。在本专利技术的一范例实施例中,上述根据所述辨识率从所述特征组合中选出所述目标特征组合的步骤包括:选择所述特征组合中具有较高辨识率的特征组合作为目标特征组合,其中所述目标特征组合的辨识率大于未被选出的特征组合的辨识率。在本专利技术的一范例实施例中,上述根据目标特征组合与所述语音情绪分类模型执行所述语音情绪辨识操作的步骤包括:接收一第三语音信号;仅提取所述第三语音信号的所述目标特征组合所包括的已计算特征;根据所述语音情绪分类模型识别所述第三语音信号所对应的情绪,其中所述情绪至少包括生气、无聊、厌恶、害怕、开心、中性和伤心。在本专利技术的一范例实施例中,上述语音情绪辨识操作是通过一电子装置所执行。在本专利技术的一范例实施例中,上述语音数据库为一柏林语音情绪数据库,并且语音特征至少包括音高、能量、共振峰、过零率、Teager能量运算子以及梅尔倒频谱系数,而非线性特征至少包括赫斯特指数、曲率指标、香农熵、Lempel-Ziv复杂度、交互信息、关联维度以及李亚普诺夫指数。基于上述,本专利技术的范例实施例所提出的语音情绪辨识方法藉由分别对切割为多个音框的语音信号以及整段的语音信号进行特征提取,来提升所接收的使用者的语音信号所对应的情绪的辨识率,由此更避免语音情绪辨识结果受限于每一音框的语音的特征量。如此一来,有效地提升具语音情绪辨识的电子装置的实用性并提供使用者更良好的操作体验。为让本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。附图说明图1是根据本专利技术一范例实施例所绘示的具备语音情绪辨识功能的语音情绪辨识系统的方块图。图2A~图2C是根据本专利技术一范例实施例所绘示的将语音情绪辨识方法实施于各种电子装置的示意图。图3是依照本专利技术一实施例所绘示的语音情绪辨识方法的流程图。图4是根据本专利技术一范例实施例所绘示的多组特征组合及其辨识率的示意图。图5是依照本专利技术一实施例所绘示的根据语音情绪分类模型执行语音情绪辨识操作的流程图。【符号说明】10:语音情绪辨识系统100:服务器200:电子装置102、202:存储装置104、204:处理器106、206:通信装置108、208:收音器110、210:特征提取模块120、220:特征选择模块130:训练模块140、240:语音情绪辨识模块150、250:语音接收模块S301、S303、S305、S307、S309、S311:语音情绪辨识方法的步骤401-a、401-b、402-a、402-b、402-c、402-d、402-e、402-f、402-g:本文档来自技高网
...
语音情绪辨识方法

【技术保护点】
一种语音情绪辨识方法,包括:从语音数据库中取得多个语音信号;将多个语音特征、多个非线性特征以及多个宏观特征组合成多组特征组合,且提取这些语音信号中每一个第一语音信号的这些语音特征、这些非线性特征以及这些宏观特征以获得多个已计算特征,其中每一个特征组合包括至少一语音特征,至少一非线性特征与至少一宏观特征的其中之一或其组合;从这些已计算特征中选出多个目标特征量;使用这些目标特征量训练语音情绪分类模型以获得对应这些特征组合的多个辨识率;根据这些辨识率从这些特征组合中选出多个目标特征组合;以及根据这些目标特征组合与该语音情绪分类模型执行语音情绪辨识操作。

【技术特征摘要】
1.一种语音情绪辨识方法,包括:从语音数据库中取得多个语音信号;将多个语音特征、多个非线性特征以及多个宏观特征组合成多组特征组合,且提取这些语音信号中每一个第一语音信号的这些语音特征、这些非线性特征以及这些宏观特征以获得多个已计算特征,其中每一个特征组合包括至少一语音特征,至少一非线性特征与至少一宏观特征的其中之一或其组合;从这些已计算特征中选出多个目标特征量;使用这些目标特征量训练语音情绪分类模型以获得对应这些特征组合的多个辨识率;根据这些辨识率从这些特征组合中选出多个目标特征组合;以及根据这些目标特征组合与该语音情绪分类模型执行语音情绪辨识操作。2.如权利要求1所述的语音情绪辨识方法,其中提取这些语音信号中的每一个第一语音信号的这些语音特征,这些非线性特征以及这些宏观特征以获得这些已计算特征的步骤包括:切割每一个第一语音信号为多个音框,并计算每一个第一语音信号的每一个音框的这些语音特征与这些非线性特征;以及获得对应每一个未切割的第一语音信号的情绪起伏趋势,并计算对应每一个未切割的第一语音信号的该情绪起伏趋势的这些非线性特征。3.如权利要求2所述的语音情绪辨识方法,其中获得对应每一个未切割的第一语音信号的该情绪起伏趋势的步骤包括:使用经验模态分解算法或移动平均算法分析每一个整段的第一语音信号,以获得对应每一个未切割的第一语音信号的该情绪起伏趋势,其中使用该经验模态分解算法分析每一个整段的第一语音信号的步骤包括:将每一个整段的第一语音信号分解为多个本质模态函数,并根据这些本质模态函数中最末项的本质模态函数取得该情绪起伏趋势。4.如权利要求2所述的语音情绪辨识方法,其中从这些已计算特征中选出这些目标特征量的步骤包括:统计每一个第一语音信号的这些音框所对应的已计算特征与每一个第一语音信号的该情绪起伏趋势所对应的已计算特征,以获得每...

【专利技术属性】
技术研发人员:陈炎生
申请(专利权)人:美特科技苏州有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1