结合声门激励和声道调制信息的汉语语音情感提取及建模方法技术

技术编号:7254524 阅读:283 留言:0更新日期:2012-04-11 19:16
本发明专利技术一种结合声门激励和声道调制信息的汉语语音情感提取及建模方法,该汉语声门激励信息的提取方法为:制定电声门图情感语音数据库规范;收集电声门图情感语音数据;电声门图情感语音主观评测,即由至少十名评测者对电声门图情感语音进行评测。结合声门激励和声道调制信息的汉语情感建模方法为:首先根据电声门图提取声门激励信息;其次根据电声门图和语音信号的关系提取语音信号中的声道调制信息;最后,利用所有备选特征的Fisher比率为每种情感选择合适的情感特征,并训练一对多支持向量机模型。本发明专利技术通过电声门图信号提取声门激励信息,将语音信号中的声门激励信息和声道调制信息分离,更准确的反映语音中的情感信息。

【技术实现步骤摘要】

本专利技术涉及一种, 属于信息

技术介绍
语音信号中包含有说话内容、说话人身份以及说话人的情感状态等信息,语音情感识别是从语音信号中提取说话人的情感状态。根据语音的激励调制模型,语音信号由声门激励和声道调制两部分组成。声门激励决定了语音韵律变化,对语音情感识别具有重要作用。例如,当说话人情绪激动时,语音信号基频均值会升高,基频变化范围会增加;当说话人表示疑问时,句子基频曲线上扬部分会增加。声门激励也包含了部分说话人身份信息,不同说话人在平静状态下的基频分布范围是不同的,但是该区别常因情感状态的改变而被屏蔽掉。另外,在有调语言中,例如汉语,声调的变化还和语义相关。声道调制主要决定了说话内容,每种元音对应不同的共振峰,反映不同的声道形状信息。不同说话人的声道形状(声道长度、声道截面积)是有区别的,该区别同样反映在声道调制的效果上。另外,当说话人的情绪状态发生改变时,即使在说同一内容,声道形状也会有所改变,该变化会导致语音能量的频域分布发生改变。可见语音中的说话内容、说话人身份以及说话人的情感状态之间的关系非常复杂。在本专利技术之前,研究者主要采用各种信号处理方法从语音信号中提取声门激励和声道调制信息,由于算法本身的限制,无法做到声门激励和声道调制信息的完全分离。
技术实现思路
本专利技术的目的就在于解决上述
技术介绍
中的缺陷,通过电声门图信号直接提取说话人的声门激励,再利用声门激励和声道调制的卷积关系提取语音中的声道调制信息,做到二者的完全分离,进行汉语语音情感识别。本专利技术一种其中汉语声门激励信息的提取方法,其步骤如下步骤1 制定电声门图情感语音数据库规范;步骤1. 1 选择20名发音人员,年龄20至30周岁,职业为学生,其中包括10名女性,10名男性;步骤1. 2 选择20句没有明显情感倾向的汉语普通话语句作为录音脚本,平均每句脚本包含6. 95个汉字,最少3个字(快点干),最多12个字(我在论文上看到你的名字了);步骤1. 3 文件名包含文件编号、情感类别、录音人性别、获取方式、语言类别、录音人编号、语音语句编号、录音语句次数标识等信息;步骤2 收集电声门图情感语音数据;步骤2. 1 录音地点为一间空旷的实验室,录音时将门窗紧闭,录制时间选择在晚上,录音设备采用DELL 0PTIPLEX 330电脑,TIGEX-EGG3电声门图仪,BE-8800驻极体电容式麦克风,录音软件采用的是GoldWave,录制双声道数据,左声道为麦克风采集的语音数据,右声道为电声门图仪采集的声门激励数据,录音时只有操作者和说话者在场,保持室内安静;步骤2. 2 记录说话者的个人信息及录音场地的温度、湿度等环境参数,并请说话者以最高音量发音,调整声卡增益以及麦克风与说话者嘴部距离,保证语音波形和电声门图波形不会出现削顶;步骤2. 3 请说话者以指定的情感朗读所有录音脚本,重复3遍;步骤2. 4 请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率11025Hz,16Bit双声道PCM编码格式的WAV文件,否则重复步骤2. 3 ;步骤2. 5 采用GoldWave软件对步骤2. 4得到的语音文件进行拆分,得到60条电声门图情感语音数据;步骤2.6 请说话者以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静的情感重复步骤2. 3至步骤2. 5,得到420条电声门图情感语音数据;步骤2. 7 更换说话者重复步骤2. 3至步骤2. 6,得到20名说话者,包括10男10 女,共8400条电声门图情感语音数据;步骤3 设计基于.NET平台的网络情感点评测系统,邀请10位以上评测者对按照随机顺序播放的电声门图情感语音进行评测,据评测结果,从全部语音集中选择4套语音子集,其中每套语音子集中的语音被至少有的人正确识别(P = 70,80,90和100);结合声门激励和声道调制信息的汉语情感建模方法,其步骤如下步骤1 结合电声门图和语音信号进行浊音段、清音段和静音段划分;步骤1. 1 对电声门图信号进行带通滤波,然后对电声门图情感语音数据库中的电声门图和语音信号进行分帧处理,帧长256个采样点,帧移1 个采样点;步骤1. 2 分别提取所有电声门图数据帧的对数能量Eegg和语音信号数据帧的对数能量E_。h,根据Eegg的统计结果设定阈值ttv根据E_。h的统计结果设定仇和tt!2 ;步骤1. 3 若某数据帧Eegg大于th。并且Espeeeh大于th2,则该数据帧为浊音,若某数据帧不是浊音并且Esp_h大于th,则该数据帧为清音,其余数据帧为静音;步骤2 提取浊音的声门激励信息;步骤2. 1 计算各浊音段持续时长的频数直方图,并对该频数直方图横纵坐标归一化之后取对数,以浊音段归一化对数持续时长为自变量,以持续时长的归一化对数频数为因变量,进行一元线性回归分析,得到浊音段持续时长频数的双对数分布参数;步骤2. 2 计算各浊音帧的基频,依照步骤2. 1的方法分别计算基频曲线上升段和下降段的持续时长频数的双对数分布参数;步骤3 提取浊音和清音的声道调制信息;步骤3. 1 对浊音帧的电声门图和语音信号进行快速傅立叶变换,对转换到频域的电声门图和语音信号进行能量归一化,利用频域相除法,将频域归一化语音信号与频域归一化电声门图信号相除,计算所得结果的10阶MEL频率倒谱系数、前3个共振峰、5个MEL 子带能量、频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数;步骤3. 2 计算清音的10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、 频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数;步骤4 根据步骤1至步骤3得到的声门激励和声道调制特征参数建立六种情感支持向量机一对多分类模型;步骤4. 1 以电声门图情感语音数据库为基础,计算步骤1至步骤3提取的每种特征的6个Fisher比率,每个Fisher比率对应一种情感;步骤4. 2 根据步骤4. 1得到的Fisher比率的排序选择适用于每种支持向量机模型的特征参数,为每种情感训练一对多支持向量机模型。本专利技术的积极效果和优点在于1.首先建立了电声门图情感语音数据库,包含20名说话者(10男10女),共8400 条电声门图情感语音数据,并为数据库中的情感语句进行了主观评测。2.分别从电声门图和语音信号出发,彻底分离了声门激励和声道调制信息,提高了语音情感识别对说话内容和说话人身份信息的鲁棒性。(四)附图附表说明附图说明图1结合声门激励和声调调制的汉语语音情感点的提取及识别方法流程图;图2电声门图和语音数据的波形图;图3清音浊音静音划分阈值的选定示意图;图4浊音段持续时长频数的双对数分布参数;图5基频曲线上升段和下降段的持续时长频数的双对数分布参数。具体实施例方式下面结合附图,对本专利技术所述的技术方案作进一步阐述。如图1所示,是结合声门激励和声调调制的汉语语音情感点的提取及识别方法流程图,主要分为两部分汉语语音情感点的提取方法和汉语语音情感点的识别方法。一、汉语语声门激励信息的提取方法,该方法步骤如下步骤1.制定本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:毛峡陈立江
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术