当前位置: 首页 > 专利查询>苏州大学专利>正文

一种汉语耳语音的基频估计方法技术

技术编号:11094704 阅读:109 留言:0更新日期:2015-02-27 14:48
本发明专利技术公开了一种汉语耳语音的基频估计方法,具体步骤包括:建立一个语料一致的耳语音和正常语音数据库;分别提取耳语音的LPCC参数Lw、正常语音的LPCC参数Ln和基频参数F0,并按照Lw和Ln进行DTW对齐;将正常语音的F0在100~300Hz之间按照5Hz一个间隔划分,共产生40个区间;将所有对齐后的矢量按照正常语音F0的大小归属到每个区间中,将每个区间中的所有耳语音LPCC矢量训练为一个GMM模型,同时将该区间中所有耳语音LPCC矢量与正常语音F0参数构成的联合矢量训练为一个GMM模型并得到一个估计函数,共40个估计函数;提取耳语音的LPCC参数,将其与每一个GMM模型匹配,搜索最佳匹配的模型,然后采用该模型的估计函数估计耳语音的F0值。本发明专利技术能够估计耳语音的基频,有效解决汉语耳语音由于基频信息缺失带来的困难。

【技术实现步骤摘要】

本专利技术涉及一种语音信号处理技术,具体涉及。
技术介绍
汉语是一种声调语言,说话人的语义、情感主要通过声调来表达。而耳语发音时声 带不振动,也就失去了声调最为重要的载体--基音频率,因此关于耳语音是否有声调,以 及如何感知其声调一度成为研究的热点。耳语声调感知的研究对于耳语音的处理如增强、 识别等具有重要意义。1972年,Abramson对耳语声调总结了两个相反的观点:第一种观点 的代表人物是Panconcelli-calzia,认为对于有声调语言,连续的耳语音根据上下文可以 理解,而孤立字是不可理解的;第二种观点的代表人物是Giet,认为耳语的声调信息被其 他非基频特征所替代,例如空气流的增加或降低,所以耳语音中依然保留有声调信息。第 二种观点的支持者们为了能够更好的感知耳语的声调,采用主观视听和客观测试的手段进 行耳语声调感知,通过主、客观实验证明了耳语音声调是可感知的。 在传统的语音分析系统中,往往认为语音的激励和声道系统是相互独立的,但是 Assmann在他的研究中指出语音的激励和声道信息存在制约关系,只有两者谐和,才会产生 自然悦耳的音色。实验是这样设计的,分别提取自然语音的基频和共振峰参数,当其中一组 参数改变时,另一组保持不变,请参与测试的听众对合成语音进行评价,选出听起来最自然 的语音。实验结果表明人们选出的最自然的声音,其基频与共振峰的组合是最接近于原来 的语音的。表明激励和声道之间确实存在着约束关系。这提示我们,原本因基频信息缺失 而不能解释的耳语音声调问题可以用声道参数来解释,声调信息可以隐藏在声道参数中。
技术实现思路
本专利技术的专利技术目的是提供,能够解决汉语耳语音 由于基频信息缺失带来的困难。 为达到上述专利技术目的,本专利技术采用的技术方案是:一种汉语耳语音的基频估计方 法,包括如下步骤: (1) 建立一个语料一致的耳语音和正常语音数据库,使得数据库中,耳语音和正常语音 的说话人、语音内容、语序完全一致; (2) 分别提取耳语音的线性预测倒谱参数Lw、正常语音的线性预测倒谱参数Ln和基频 参数H),并按照Lw和Ln进行动态时间规整对齐; (3) 将正常语音的R)在100?300Hz之间按照5Hz-个间隔划分,共产生40个区间; (4) 将所有对齐后的矢量按照正常语音R)的大小归属到每个区间中,将每个区间中的 所有耳语音线性预测倒谱矢量训练为一个高斯混合模型,同时将该区间中所有耳语音线性 预测倒谱矢量与正常语音参数构成的联合矢量训练为一个高斯混合模型并得到一个估 计函数,共40个估计函数; (5) 提取耳语音的线性预测倒谱参数,将其与每一个高斯混合模型匹配,搜索最佳匹配 的模型,然后采用该模型的估计函数估计耳语音的Η)值。 由于上述技术方案运用,本专利技术与现有技术相比具有下列优点: 本专利技术通过建立耳语音和正常语音数据库,再提取耳语音的LPCC参数、正常语音的LPCC参数和R)参数,并对耳语音的LPCC参数和正常语音的LPCC参数进行对齐,将正常语 音的FO参数等间隔划分区间,将所有对齐后的矢量按照正常语音R)的大小归属到每个区 间中,将每个区间中的所有耳语音线性预测倒谱矢量训练为一个高斯混合模型,同时将该 区间中所有耳语音线性预测倒谱矢量与正常语音Η)参数构成的联合矢量训练为一个高斯 混合模型并得到一个估计函数,共40个估计函数,提取耳语音的线性预测倒谱参数,将其 与每一个高斯混合模型匹配,搜索最佳匹配的模型,然后采用该模型的估计函数实现对耳 语音的Η)值的估计,能够有效解决汉语耳语音由于基频信息缺失带来的困难。 【附图说明】 图1是实施例一中本专利技术的基频估计方法的流程图。 图2是实施例二中采用Afe模型估计的基频轨迹与目标基频轨迹图谱。 图3是实施例二中采用Aicr模型估计的基频轨迹与目标基频轨迹图谱。 【具体实施方式】 下面结合附图及实施例对本专利技术作进一步描述: 实施例一:参见图1所示,,包括如下步骤: (1) 建立一个语料一致的耳语音和正常语音数据库,使得数据库中,耳语音和正常语音 的说话人、语音内容、语序完全一致; (2) 分别提取耳语音的线性预测倒谱参数Lw、正常语音的线性预测倒谱参数Ln和基频 参数Η),并按照Lw和Ln进行动态时间规整(DTW)对齐; (3) 将正常语音的R)在100?300Hz之间按照5Hz-个间隔划分,共产生40个区间; (4) 将所有对齐后的矢量按照正常语音R)的大小归属到每个区间中,将每个区间中的 所有耳语音线性预测倒谱矢量训练为一个高斯混合模型,同时将该区间中所有耳语音线性 预测倒谱矢量与正常语音参数构成的联合矢量训练为一个高斯混合模型并得到一个估 计函数,共40个估计函数; (5) 提取耳语音的线性预测倒谱参数,将其与每一个高斯混合模型匹配,搜索最佳匹配 的模型,然后采用该模型的估计函数估计耳语音的值。 实施例二:选取80个说话人参与录音,其中包括40名男性和40名女性,年龄范围 从儿童到老人,分布较均衡。录音环境安静,话筒为手持式话筒,采样率为16KHz,量化位为 16bits。为保证儿童能够顺利参与录音,录音文本采集自小学语文课本,包含了汉语21个 声母与35个韵母组合成的所有汉语有声调音节,语料内容经过筛选保证音素分布均衡。 每一个说话人将相同的语料分别用耳语音和正常语音发音一遍。由于耳语音发音 的特殊性,难免存在发音方式不正确的情况,因此,所有耳语音的语料数据都经过主观频谱 观察确保没有基频轨迹。不符合的地方被标注出来,经重新补录后插入语料集中。 采用STRAIGHT工具包提取语音的基频与线性预测倒谱参数(LPCC),LPCC阶数为 产=24,帧长25ms,帧移10ms。 基频信息仅存在于浊音部分,提取正常语音浊音段的LPCC和基频参数同时提取 耳语音相应音段的LPCC特征矢量。考虑耳语音的语速比正常语音的语速要慢,因此依据正 常语音和耳语音的LPCC参数进行DTW对齐,然后保留对齐后的正常语音的R)与耳语音的 LPCC参数,构成联合矢量。 高斯混合模型参数m由均值向量、协方差矩阵和混合权重组成,表示为 m= {ω,μ,Ε)。ρ阶高斯混合模型(GMM)可表示为(1)式:本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/21/201410705012.html" title="一种汉语耳语音的基频估计方法原文来自X技术">汉语耳语音的基频估计方法</a>

【技术保护点】
一种汉语耳语音的基频估计方法,其特征在于,包括如下步骤:(1)建立一个语料一致的耳语音和正常语音数据库,使得数据库中,耳语音和正常语音的说话人、语音内容、语序完全一致;(2)分别提取耳语音的线性预测倒谱参数Lw、正常语音的线性预测倒谱参数Ln和基频参数F0,并按照Lw和Ln进行动态时间规整对齐;(3)将正常语音的F0在100~300Hz之间按照5Hz一个间隔划分,共产生40个区间;(4)将所有对齐后的矢量按照正常语音F0的大小归属到每个区间中,将每个区间中的所有耳语音线性预测倒谱矢量训练为一个高斯混合模型,同时将该区间中所有耳语音线性预测倒谱矢量与正常语音F0参数构成的联合矢量训练为一个高斯混合模型并得到一个估计函数,共40个估计函数;(5)提取耳语音的线性预测倒谱参数,将其与每一个高斯混合模型匹配,搜索最佳匹配的模型,然后采用该模型的估计函数估计耳语音的F0值。

【技术特征摘要】
1. 一种汉语耳语音的基频估计方法,其特征在于,包括如下步骤: (1) 建立一个语料一致的耳语音和正常语音数据库,使得数据库中,耳语音和正常语音 的说话人、语音内容、语序完全一致; (2) 分别提取耳语音的线性预测倒谱参数Lw、正常语音的线性预测倒谱参数Ln和基频 参数H),并按照Lw和Ln进行动态时间规整对齐; (3)将正常语音的R)在100?300Hz之间按照5Hz-个间隔划分,共产生40个区...

【专利技术属性】
技术研发人员:陈雪勤刘正赵鹤鸣俞一彪
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1