当前位置: 首页 > 专利查询>东南大学专利>正文

基于拼音韵母说话内容标准化语音情感特征选择方法技术

技术编号:12489384 阅读:180 留言:0更新日期:2015-12-11 04:01
本发明专利技术公开了一种基于拼音韵母说话内容标准化语音情感特征选择方法,包括语音片段轨迹模型建立,说话内容标准化,语音表达因素与特征表现相关性的量化以及语音情感选择。该方法在建立轨迹模型的基础上量化语音表达因素与特征表现相关性,从而选择语音情感特征。本发明专利技术通过构建针对情感分类问题的语音轨迹模型,量化语音表达中各个因素与特征表现相关性,利用说话内容标准化方法,降低了语音内容等无关信息对于语音特征表现的影响,选择出含有较多情感信息的语音特征,同时具有较低的计算复杂度。

【技术实现步骤摘要】

本专利技术涉及一种,尤其涉及 一种基于语音轨迹模型的语音情感特征选择方法,属于语音情感识别

技术介绍
随着信息技术的快速发展和各种智能终端的兴起,现有的人机交互系统正面临日 益严峻的考验。为了克服人机交互的障碍,使人机交互更为方便、自然,机器的情感智能正 日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介, 携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题,在远程教学、辅助 测谎、自动远程电话服务中心以及临床医学,智能玩具,智能手机等方面有着广阔的应用前 景,吸引了越来越多研究机构与研究学者的广泛关注。 为了提高语音情感识别的精度和鲁棒性,提取充分反映说话人情感状态的语音情 感特征至关重要。从原始语音数据中提取有效的情感信息,剔除情感无关的说话内容信息 等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。 作为一种新兴的语音分析技术,语音片段轨迹模型因其在语音信号处理中的灵活 性和有效性,越来越得到研究者的广泛重视。对于分类问题,建立语音片段轨迹模型,量化 语音表达因素与特征表现的相关性,进而对语音中说话内容进行标准化,降低了语音内容 等无关信息对于语音特征表现的影响,选择出含有较多情感信息的语音特征。这种基于语 音表达因素与特征表现的相关性特征提取思想和方法在语音情感识别研究中具有重要的 意义。
技术实现思路
技术问题:本专利技术提供一种能够提高语音情感识别的鲁棒性,降低了语音内容等 无关信息对于语音特征表现的影响,可以选择出含有较多情感信息语音特征的基于拼音韵 母说话内容标准化语音情感特征选择方法。 技术方案:本专利技术的,包括 以下步骤: 步骤1 :对情感语音片段数字化后的数字语音信号X进行预处理,得到有效语音帧 集合,对所述有效语音帧集合中每个语音片段t提取一个D维的特征A,得到一个特征矩 阵C : (61) 其中,K为有效语音帧帧长,A表示语音片段提取的特征,D表示特征A的维数,Cni, t表示特征矩阵中一个元素 ,C t表示特征矩阵中一个列向量,其中t为特征矩阵中列标,t = 1,2, . . .,D,m为特征矩阵中行标,m = 1,2, . . .,K ; 步骤2 :把所述特征矩阵C转换为一个轨迹模型方程:C = ZB+E,其中B表示轨迹 参数矩阵,E表示残差向量矩阵,Z表示负责将语音片段的时间度量归一化的设计矩阵: 然后构建行数为K,列数为轨迹模型展开阶次J加1的设计矩阵Z,其中元素V为设计矩阵行标,j为设计矩阵列标,V = 1,2,. .,K,j = 1,2,. . .,J+1 : 步骤3 :对每个语音片段,利用最大似然估计来计算轨迹参数矩阵Bq: Bq= (ZrqZq) 1ZrqCq (2) 其中,q为语音片段编号,Zq,Cq分别为第q个语音片段的设计矩阵和特征矩阵, Z' q为Zq的转置矩阵; 然后计算每个语音片段的残差协方差矩阵Σ q:C3) Kq是第q个语音片段的帧数; 步骤4 :对说话内容进行标准化: 选取汉语拼音中的韵母作为参考标准p"f,将韵母的语音片段X raf作为 参考语音片段,并用轨迹模型将参考语音片段表示为{Βμ,Σ raf,Κ},需要标准化的其他音 位P1的语音片段,即需要变换的语音片段X 4勺声学特征用轨迹模型表示为{B P Σ p K},其 中Braf表示参考语音片段X i的平均轨迹向量,Σ μ表示参考语音片段X ^的残差协方差矩 阵,81表示需要变换语音片段X i的平均轨迹向量,Σ i表示参考语音片段X i的残差协方差 矩阵; 首先根据下式进行白化转换:(4) 其中,V1, D1分别为Σ %应的特征向量矩阵和特征值矩阵,是白化变换,Xw 表示白化变换后的数据,即X1解相关数据; 然后根据下式进行说话内容标准化::⑩ Xn表示X i利用参考语音片段X 标准化后的数据,V Draf分别表示Σ μ对应的 特征向量矩阵和特征值矩阵; 步骤5 :计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括: 标准化后情感因素与声学特征的相关性、标准化后说话内容因素与声学特征的相关性; 步骤6 :相关性比较:将所有声学特征中,与情感因素的相关性大于与标准化后的 说话内容因素相关性的特征作为语音情感识别特征。 进一步的,所述步骤1中的预处理包括如下步骤: 步骤I. I :对数字语音信号X按下式进行预加重,得到预加重后的语音信号X :: 其中疼表示数字语音信号X的离散点序号,f为数字语音信号X的长度,K司和 - 1)分别表示数字语音信号X在第^和冢-1个离散点上的值,Y㈨表示预加重后的语 音信号龙在第r个离散点上的值,X (-1) = 0 ; 步骤1. 2 :采用交叠分段的方法对预加重后的语音信号!进行分帧,前一帧起点 与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率F s= 16kHz下取128点,每一 帧长取16ms,即取256点,$经过分帧得到语音帧集合: 其中%:为语音帧集合中的第k'个语音帧,η表示语音帧离散点序号,k'为语音 帧序号,C为语音帧总帧数,且满足: 步骤1. 3 :对各语音帧&.,1UW',选择窗口长度为256点的汉明窗w进行加窗 处理,得到加窗语音帧Xk,为: 其中xk,(η)、知(》)、w (η)分别表示xk,、%、w在第η个离散点上的值,窗口长度 为256点的汉明窗函数为: 步骤1. 4 :对各加窗语音帧xk(,1彡I彡C,计算短时能量Ek(和短时过零率 Zk-: 其中Ek,表示加窗语音帧Xk,的短时能量,Zk,表示X k,的短时过零率,xk,(η) 为加窗语音帧xk,在第η个采样点上的值,x k, (η-1)为Xk,在第η-1个采样点上的值, sgn、sgn分别为 xk, (n)、xk, (η-1)的符号函数,即: CN 105139867 A ~P 4/9 页 步骤I. 5 :确定短时能量阈值tE和短时过零率阈值t z: 其中C为语音帧总帧数; 步骤1. 6 :对各加窗语音帧,首先用短时能量作第一级判别,将短时能量值大于阈 值&的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作 为当前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音 帧集合的结束帧,然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为 起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值t z的加窗语音帧标记 为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率 大于阈值&的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为 {s k} i κ κ,其中k为有效语音帧序号,K为有效语音帧总帧数,Sk为有效语音帧集合中的第 k个有效语音帧。 进一步的,所述步骤5)中的标准化后情感因素与声学特征的相关性根据下式计 算: 祕 其中Σ &为上述标准化后的数据X n的残差协方差矩阵; 其中E表示影响语音情感表达中的情感因素的集合,为影响语音情感表达中的 情感因素,即集合E中的元素,tr(·)表示某个矩阵的迹,P (f J表示对应情感的语音样本在 语音库中出现的概率,tr本文档来自技高网...

【技术保护点】
一种基于拼音韵母说话内容标准化语音情感特征选择方法,其特征在于,该方法包括以下步骤:步骤1:对情感语音片段数字化后的数字语音信号X进行预处理,得到有效语音帧集合,对所述有效语音帧集合中每个语音片段X′提取一个D维的特征A,得到一个特征矩阵C:C=c1,1...c1,t...c1,Dc2,1...c2,t...c2,D...............cm,1...cm,t...cm,D...............cK,1...cK,t...cK,D=[C1...Ct...CD]---(1)]]>其中,K为有效语音帧帧长,A表示语音片段提取的特征,D表示特征A的维数,cm,t表示特征矩阵中一个元素,Ct表示特征矩阵中一个列向量,其中t为特征矩阵中列标,t=1,2,...,D,m为特征矩阵中行标,m=1,2,...,K;步骤2:把所述特征矩阵C转换为一个轨迹模型方程:C=ZB+E,其中B表示轨迹参数矩阵,E表示残差向量矩阵,Z表示负责将语音片段的时间度量归一化的设计矩阵;然后构建行数为K,列数为轨迹模型展开阶次J加1的设计矩阵Z,其中元素v为设计矩阵行标,j为设计矩阵列标,v=1,2,...,K,j=1,2,...,J+1;步骤3:对每个语音片段,利用最大似然估计来计算轨迹参数矩阵Bq:Bq=(Z′qZq)‑1Z′qCq                   (2)其中,q为语音片段编号,Zq,Cq分别为第q个语音片段的设计矩阵和特征矩阵,Z′q为Zq的转置矩阵;然后计算每个语音片段的残差协方差矩阵∑q:Σq=Eq′EqKq=(Cq-ZqBq)′(Cq-ZqBq)Kq---(3)]]>Kq是第q个语音片段的帧数;步骤4:对说话内容进行标准化:选取汉语拼音中的韵母作为参考标准pref,将韵母的语音片段Xref作为参考语音片段,并用轨迹模型将参考语音片段表示为{Bref,∑ref,K},需要标准化的其他音位pi的语音片段,即需要变换的语音片段Xi的声学特征用轨迹模型表示为{Bi,∑i,K},其中Bref表示参考语音片段Xi的平均轨迹向量,∑ref表示参考语音片段Xref的残差协方差矩阵,Bi表示需要变换语音片段Xi的平均轨迹向量,∑i表示参考语音片段Xi的残差协方差矩阵;首先根据下式进行白化转换:Xw=Di-12Vi′(Xi-Bi)---(4)]]>其中,Vi,Di分别为∑i对应的特征向量矩阵和特征值矩阵,是白化变换,Xw表示白化变换后的数据,即Xi解相关数据;然后根据下式进行说话内容标准化:Xn=VrefDref12Xw+Bref---(5)]]>Xn表示Xi利用参考语音片段Xref标准化后的数据,Vref,Dref分别表示∑ref对应的特征向量矩阵和特征值矩阵;步骤5:计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括:标准化后情感因素与声学特征的相关性、标准化后说话内容因素与声学特征的相关性;步骤6:相关性比较:将所有声学特征中,与情感因素的相关性大于与标准化后的说话内容因素相关性的特征作为语音情感识别特征。...

【技术特征摘要】

【专利技术属性】
技术研发人员:黄永明吴奥章国宝
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1