一种小型说话人情感识别系统技术方案

技术编号:11198549 阅读:127 留言:0更新日期:2015-03-26 05:20
一种小型说话人情感识别系统,首先建立了一个小型的情感语音库,将其中一部分语音做训练样本,用于构建参考模板;另一部分做测试样本,用于后续的情感识别实验,然后对已获得语音库中的语音进行预处理,对预处理之后的语音信号进行情感参数的提取工作,情感参数包括基音频率、共振峰、梅尔频率倒谱系数及其相关统计参数。之后是进行语音情感识别实验,将训练语音的情感参数用基于支持向量机的情感分类器进行分类,之后再用其对测试语音进行预测,判断其属于何种情感。

【技术实现步骤摘要】
【专利摘要】一种小型说话人情感识别系统,首先建立了一个小型的情感语音库,将其中一部分语音做训练样本,用于构建参考模板;另一部分做测试样本,用于后续的情感识别实验,然后对已获得语音库中的语音进行预处理,对预处理之后的语音信号进行情感参数的提取工作,情感参数包括基音频率、共振峰、梅尔频率倒谱系数及其相关统计参数。之后是进行语音情感识别实验,将训练语音的情感参数用基于支持向量机的情感分类器进行分类,之后再用其对测试语音进行预测,判断其属于何种情感。【专利说明】一种小型说话人情感识别系统
本专利技术涉及的是一种语音情感识别系统,特别涉及一种小型说话人情感识别系统。
技术介绍
语音是人与人之间交流的重要手段,声音是信息的载体,人们可以通过声音来获得其中的信息,其中自然包括情感信息。语音是人类相互交流的一种重要工具,也是传递情感的一种重要媒介。语音信号所包含的不止是文字信息,同时还夹杂着人的情感。同样是一句话,其中可以包含不同的情感,而情感不同,那么这句话的意思就有可能发生变化,如果计算机无法从操作者的语音中获得其情感,那么就不可能达到最佳的交流效果,甚至有可能会对操作者的意思产生误解,从而产生误动作,给操作者带来不便。 语音信号处理是一个重要的研究领域,至今已有很长的研究历史,而语音信号的情感研究则是一个新兴领域,但它是一个综合了多类学科的研究课题。其中主要包含了生理学、心理学、以及信号处理等重要学科。同时该课题的研究成果一语音情感识别系统具有相当宽广的应用前景,具体可以应用在:1、远程网络教学,在远程网络教学系统中可以加入情感识别系统,通过判断学习者的情感表达是否得体,可以让学习者更好的提高带有丰富情感的朗读能力。 2、用于刑侦领域,情感识别系统可以制作成一个测谎仪,利用其推断测试者的语言真实程度。随着技术的不断提高,可以不断完善测谎仪的功能并将其用于现实中,因此情感识别系统对于刑侦领域来说也具有相当重要的实际意义。 3、娱乐游戏,目前大多数游戏都是通过文字来传达信息,而如果在游戏中加语音的情感识别及表达则可以丰富信息的传递方式,同时也更能吸引玩家。通过这种新颖的方式可以在一定程度上缓解玩家在游戏过程中的疲劳度,玩家也能同时获得听觉与视觉上的享受,增加了游戏的可玩程度。
技术实现思路
本专利技术的目的是提供一种利用一个小型的情感语音库利用其作为语音做训练样本,用于构建参考模板,对每种情感的识别率进行统计的人情感识别系统。 本专利技术的目的是这样实现的:本专利技术的第一步工作是在阅读了国内外大量资料的基础上建立了一个小型的情感语音库,将其中一部分语音做训练样本,用于构建参考模板;另一部分做测试样本,用于后续的情感识别实验。第二步是对已获得语音库中的语音进行预处理,其步骤主要包括预加重、加窗分帧以及语音端点检测。第三步是对预处理之后的语音信号进行情感参数的提取工作,情感参数包括基音频率、共振峰、梅尔频率倒谱系数及其相关统计参数。用软件对参数的提取进行仿真实验,得到不同情感类型的各个参数的分布范围,并对结果进行简要的分析。第四步是进行语音情感识别实验,将训练语音的情感参数用基于支持向量机的情感分类器进行分类,之后再用其对测试语音进行预测,判断其属于何种情感。实验之后对每种情感的识别率进行统计,对最终的统计结果进行分析。最后,为整个系统设计了一个简单的人机界面,该界面可以完成输入测试语音、显示系统对该语音的识别结果以及对结果进行清空的功能。 自己录制一个小规模的汉语情感语音库,库中语音的情感分为四类:喜悦、愤怒、悲伤、惊奇。录制者为6人均为男生,每人对4个语音文本分别用4种情感进行朗读,每种情感朗读4遍,总共获得384个样本作为实验用情感语音库。采用SVM的方法对情感进行分类,其中SVM采用“一对一”方法来解决多分类的问题。最后分别用语音的韵律特征包括基音及共振峰的相关参数、语音特征MFCC相关参数及两者结合作为情感特征做了识别,并对识别结果进行了分析对比。实验中,在用全部11个参数进行识别时,最终所得到的4种情感的平均识别率为79.15%,悲伤的识别率最高为83.3%。同时发现,喜悦与愤怒这两种情感之间最容易发生误识别现象。 【专利附图】【附图说明】 图1为语首情感识别流程图。 【具体实施方式】 下面结合附图举例对本专利技术做更详细地描述:实施例1结合图1,图1为语音情感识别流程图。1、情感语音库的获取。由于目前语音情感识别都是针对他国语言而言的,汉语在这方面的研究则开展的相对较少,找不到一个专门用于情感识别的汉语情感语音库。因此进行识别研究之前的准备工就是自己录制一个小规模的汉语的情感语音库,然后基于该语音库进行后续研究。2、语音信号的预处理。由于语音信号的特点,对于语音库中的语音信号并不能直接提取其中的情感特征参数,必须先进行一步前端处理,包括预加重、加窗分帧及端点检测。3、情感特征参数的提取。预处理之后则是提取信号中的情感特征参数,其中主要包括两种类别,一类是声学特征参数,包括12阶MFCC参数和共振峰参数。另一类是韵律特征参数,包括语音的基音频率,短时能量,平均过零率等参数。并在此基础上进行了细化,最终选取了基音频率平均值、最大值、最小值,第一共振峰平均值、最大值,以及MFCC的第10个、11个、12个参数作为情感特征参数。4、情感分类器的设计。本专利技术采用了基于支持向量机(Support Vector Machine)的语音情感分类器的设计,由于目前的svm都只适用于二分类,而如果要实现多分类,则需要在每两个样本间设计一个svm,在需要对未知样本进行分类时,则要通过投票来最终确定其类别。这就是所谓的“一对一”法。【权利要求】1.一种小型说话人情感识别系统,其特征在于:本专利技术的第一步工作是在阅读了国内外大量资料的基础上建立了一个小型的情感语音库,将其中一部分语音做训练样本,用于构建参考模板;另一部分做测试样本,用于后续的情感识别实验;第二步是对已获得语音库中的语音进行预处理,其步骤主要包括:预加重、加窗分帧以及语音端点检测;第三步是对预处理之后的语音信号进行情感参数的提取工作,情感参数包括基音频率、共振峰、梅尔频率倒谱系数及其相关统计参数;用软件对参数的提取进行仿真实验,得到不同情感类型的各个参数的分布范围,并对结果进行简要的分析;第四步是进行语音情感识别实验,将训练语音的情感参数用基于支持向量机的情感分类器进行分类,之后再用其对测试语音进行预测,判断其属于何种情感;实验之后对每种情感的识别率进行统计,对最终的统计结果进行分析;最后,为整个系统设计了一个简单的人机界面,该界面可以完成输入测试语音、显示系统对该语音的识别结果以及对结果进行清空的功能。2.根据权利要求1所述的一种小型说话人情感识别系统,其特征在于:录制一个小规模的汉语情感语音库,库中语音的情感分为四类:喜悦、愤怒、悲伤、惊奇;采用3穩的方法对情感进行分类,其中3穩采用“一对一”方法来解决多分类的问题;最后分别用语音的韵律特征包括基音及共振峰的相关参数、语音特征即⑶相关参数及两者结合作为情感特征做识别。【文档编号】G10L25/63GK104464756SQ201410750977【公开日】2015年3月本文档来自技高网
...

【技术保护点】
一种小型说话人情感识别系统,其特征在于:本专利技术的第一步工作是在阅读了国内外大量资料的基础上建立了一个小型的情感语音库,将其中一部分语音做训练样本,用于构建参考模板;另一部分做测试样本,用于后续的情感识别实验;第二步是对已获得语音库中的语音进行预处理,其步骤主要包括:预加重、加窗分帧以及语音端点检测;第三步是对预处理之后的语音信号进行情感参数的提取工作,情感参数包括基音频率、共振峰、梅尔频率倒谱系数及其相关统计参数;用软件对参数的提取进行仿真实验,得到不同情感类型的各个参数的分布范围,并对结果进行简要的分析;第四步是进行语音情感识别实验,将训练语音的情感参数用基于支持向量机的情感分类器进行分类,之后再用其对测试语音进行预测,判断其属于何种情感;实验之后对每种情感的识别率进行统计,对最终的统计结果进行分析;最后,为整个系统设计了一个简单的人机界面,该界面可以完成输入测试语音、显示系统对该语音的识别结果以及对结果进行清空的功能。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯秀霞
申请(专利权)人:黑龙江真美广播通讯器材有限公司
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1