当前位置: 首页 > 专利查询>常州工学院专利>正文

基于深层神经网络特征映射的非对称语音转换方法技术

技术编号:9597674 阅读:155 留言:0更新日期:2014-01-23 02:56
本发明专利技术公开了一种基于深层神经网络特征映射的非对称语音转换方法,属于语音转换技术领域。本发明专利技术的一种基于深层神经网络特征映射的非对称语音转换方法,针对源语音和目标语音的非对称数据,首先利用深层网络的预训练功能对其进行概率建模,通过提炼语音信号中蕴含的高阶统计特性,给出网络系数的后备优选空间;其次,利用少量对称数据进行增量学习,通过优化后的传递误差来修正网络权重系数,从而实现特征参数的映射。本发明专利技术优化了网络系数结构,并将其作为深层前向预测网络的参数初始值,进而在少量对称数据的增量学习过程中,反向传导优化网络结构参数,实现说话人的个性特征参数的映射。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种,属于语音转换
。本专利技术的一种,针对源语音和目标语音的非对称数据,首先利用深层网络的预训练功能对其进行概率建模,通过提炼语音信号中蕴含的高阶统计特性,给出网络系数的后备优选空间;其次,利用少量对称数据进行增量学习,通过优化后的传递误差来修正网络权重系数,从而实现特征参数的映射。本专利技术优化了网络系数结构,并将其作为深层前向预测网络的参数初始值,进而在少量对称数据的增量学习过程中,反向传导优化网络结构参数,实现说话人的个性特征参数的映射。【专利说明】
本专利技术属于语音转换
,具体涉及一种。
技术介绍
语音转换技术,简单地说就是将一个说话人(称之为源)的声音,通过某种手段进行变换,使其听起来仿佛是另一个说话人(称之为目标)说的话。语音转换属于交叉性的学科分支,其内容既涉及到语音学、语义学及心理声学等领域的知识,又涵盖语音信号处理领域的各个方面,如语音的分析与合成、说话人识别、语音编码和增强等。语音转换的最终目标是提供即时的、可以自动快速适应任何说话者的语音服务,这个系统不需要或者很少需要用户训练就可以针对所有用户和各种条件,良好地发挥功用。然而,现阶段的语音转换技术还做不到这一点。目前的系统一方面严格限制用户措词造句的方式(即需要对称数据进行训练),另一方面还需求较大的数据量来训练系统。针对上述问题,目前已存在一些应对方案。例如,针对“非对称数据”问题,有学者提出先用矢量量化算法对源和目标说话人的特征空间进行划分,然后比较声道长度归一化后的模板距离,从中选择源和说话人对应的码字,最后在同一码字空间里,用最邻近算法找寻最相近的匹配语音帧。又如Salor等人则提出利用动态规划算法来解决这类问题。该算法的核心思想是:构建代价函数,使源和目标以及目标前一帧和当前帧的误差和同时达到最小。针对“减少数据量”问题,Helander等人提出在建模的过程中考虑特征参数之间的耦合关系,并利用这一关系提高系统在数据量稀少情况下的鲁棒性。除此之外,还有人提出利用基于变分贝叶斯的分析方法研究传统的高斯混合模型,加强该模型在数据稀疏时建模能力。经检索,中国专利申请号ZL201210229540.8,申请公布日为2012年10月17日,专利技术创造名称为:一种基于LPC及RBF神经网络的声音转换的方法,该申请案涉及一种基于LPC及RBF神经网络的声音转换的方法,包括以下步骤:A、对语音进行预处理;B、对浊音帧进行基频检测;C、对基频检测后的浊音帧进行转换;D、对转换后的基频进行浊音帧参量的提取;E、对提取到的浊音帧参量进行计算,求得一帧浊音帧,然后对该一帧浊音帧进行合成,得到转换后的浊音帧。该申请案提出了一种高质量、计算量适中的语音转换技术方案,但其不足之处在于:该申请案的一种基于LPC及RBF神经网络的声音转换的方法,将待转换语音分解成清音和浊音,又将浊音分成基频、能量、LPC及LSF系数进行语音转换,增加了能量的测量,增大了测量难度和误差,易造成转换后的语音质量不理想的问题。
技术实现思路
本专利技术的目的是:克服现有技术中语音转换系统不仅严格限制用户措词造句的方式,而且还需要较大的数据量来训练,同时转换后的语音质量并不理想的不足,提供一种,采用本专利技术提供的技术方案,针对实际环境中,语音转换系统面临的在非对称数据和数据量匮乏条件下系统性能急剧恶化的问题,将上述两方面相对独立的环节综合到统一的理论框架下进行研究,同时利用深层神经网络对原始数据进行非监督式地训练,提炼其中包含的高阶统计特征信息,在此基础上通过监督式的前向预测训练,最终提高语音转换系统在实际环境下的泛化性能。本专利技术的基本原理是:本专利技术的一种,针对源语音和目标语音的非对称数据,首先利用深层神经网络的预训练功能对其进行概率建模,通过提炼语音信号中蕴含的高阶统计特性,给出网络系数的后备优选空间;其次,利用少量对称数据进行增量学习,通过优化后的传递误差来修正网络权重系数,从而实现特征参数的映射。具体地说,本专利技术是采用以下的技术方案来实现的,包括下列步骤:I)在已有源语音信号的基础上,根据采集到的目标语音信号采集具有相同语义内容的源语音信号,形成包含非对称源语音信号、对称源语音信号、目标语音信号在内的训练用语音信号;采用谐波加随机模型对训练用语音信号进行分解,分别得到非对称源语音信号的基音频率轨迹、非对称源语音信号的谐波声道谱参数的幅度值和相位值、对称源语音信号的基音频率轨迹、目标语音信号的基音频率轨迹、对称源语音信号的谐波声道谱参数的幅度值和相位值、目标语音信号的谐波声道谱参数的幅度值和相位值;根据对称源语音信号的基音频率轨迹和目标语音信号的基音频率轨迹,建立源语音基音频率的高斯模型和目标语音基音频率的高斯模型;2)分别对非对称源语音信号的谐波声道谱参数的幅度值和相位值、对称源语音信号的谐波声道谱参数的幅度值和相位值、目标语音信号的谐波声道谱参数的幅度值和相位值进行降维处理,将声道参数转化为线性预测参数,进而产生适用于语音转换的线性谱频率参数;3)利用步骤2)中得到的非对称源语音信号的线性谱频率参数对深层置信网络进行非监督训练,得到训练完成的深层置信网络;4)利用动态时间规整算法,对步骤2)中得到的对称源语音信号的线性谱频率参数和目标语音信号的线性谱频率参数进行对齐;5)利用对齐后的对称源语音信号的线性谱频率参数和目标语音信号的线性谱频率参数对深层前向预测网络进行增量式监督训练,得到训练完成的深层前向预测网络;6)采用谐波加随机模型对待转换的源语音信号进行分解,得到待转换的源语音信号的基音频率轨迹、待转换的源语音信号的谐波声道谱参数的幅度值和相位值;对待转换的源语音信号的谐波声道谱参数的幅度值和相位值进行降维处理,将声道参数转化为线性预测参数,进而产生适用于语音转换的线性谱频率参数,然后利用步骤3)中训练完成的深层置信网络对待转换的源语音信号的线性谱频率参数进行特征映射,得到待转换的源语音信号的新的特征参数,最后将步骤5)中训练完成的深层前向预测网络看作通用的泛函映射函数,对待转换的源语音信号的新的特征参数进行映射转换,得到转换后的语音信号的线性谱频率参数;利用步骤I)所得到的源语音基音频率的高斯模型和目标语音基音频率的高斯模型,对待转换的源语音信号的基音频率轨迹进行高斯转换,得到转换后的语音信号的基音频率轨迹;7)将转换后的语音信号的线性谱频率参数反变换为谐波加噪声模型系数,然后和转换后的语音信号的基音频率轨迹一起进行语音合成,得到转换后的语音信号。上述技术方案的进一步特征在于:所述步骤I)中,采用谐波加随机模型对原始语音信号进行分解的过程如下:1-1)对原始语音信号进行固定时长的分帧,用自相关法对基音频率进行估计;1-2)对于浊音信号,在浊音信号中设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波声道谱参数幅度值和相位值;1-3)对于清音信号,直接利用经典的线性预测分析法对其进行分析,得到线性预测系数。上述技术方案的进一步特征在于:在所述步骤2)中,将声道参数转化为线性预测参数,进而产生适用于语音转换的线性谱频率参数的过程如下:2-1)对离散的谐波声道谱参数的幅度值本文档来自技高网
...

【技术保护点】
基于深层神经网络特征映射的非对称语音转换方法,其特征在于,包括如下步骤:1)在已有源语音信号的基础上,根据采集到的目标语音信号采集具有相同语义内容的源语音信号,形成包含非对称源语音信号、对称源语音信号、目标语音信号在内的训练用语音信号;采用谐波加随机模型对训练用语音信号进行分解,分别得到非对称源语音信号的基音频率轨迹、非对称源语音信号的谐波声道谱参数的幅度值和相位值、对称源语音信号的基音频率轨迹、目标语音信号的基音频率轨迹、对称源语音信号的谐波声道谱参数的幅度值和相位值、目标语音信号的谐波声道谱参数的幅度值和相位值;根据对称源语音信号的基音频率轨迹和目标语音信号的基音频率轨迹,建立源语音基音频率的高斯模型和目标语音基音频率的高斯模型;2)分别对非对称源语音信号的谐波声道谱参数的幅度值和相位值、对称源语音信号的谐波声道谱参数的幅度值和相位值、目标语音信号的谐波声道谱参数的幅度值和相位值进行降维处理,将声道参数转化为线性预测参数,进而产生适用于语音转换的线性谱频率参数;3)利用步骤2)中得到的非对称源语音信号的线性谱频率参数对深层置信网络进行非监督训练,得到训练完成的深层置信网络;4)利用动态时间规整算法,对步骤2)中得到的对称源语音信号的线性谱频率参数和目标语音信号的线性谱频率参数进行对齐;5)利用对齐后的对称源语音信号的线性谱频率参数和目标语音信号的线性谱频率参数对深层前向预测网络进行增量式监督训练,得到训练完成的深层前向预测网络;6)采用谐波加随机模型对待转换的源语音信号进行分解,得到待转换的源语音信号的基音频率轨迹、待转换的源语音信号的谐波声道谱参数的幅度值和相位值;对待转换的源语音信号的谐波声道谱参数的幅度值和相位值进行降维处理,将声道参数转化为线性预测参数,进而产生适用于语音转换的线性谱频率参数,然后利用步骤3)中训练完成的深层置信网络对待转换的源语音信号的线性谱频率参数进行特征映射,得到待转换的源语音信号的新的特征参数,最后将步骤5)中训练完成的深层前向预测网络看作通用的泛函映射函数,对待转换的源语音信号的新的特征参数进行映射转换,得到转换后的语音信号的线性谱频率参数;利用步骤1)所得到的源语音基音频率的高斯模型和目标语音基音频率的高斯模型,对待转换的源语音信号的基音频率轨迹进行高斯转换,得到转换后的语音信号的基音频率轨迹;7)将转换后的语音信号的线性谱频率参数反变换为谐波加噪声模型系数,然后和转换后的语音信号的基音频率轨迹一起进行语音合成,得到转换后的语音信号。...

【技术特征摘要】

【专利技术属性】
技术研发人员:鲍静益徐宁
申请(专利权)人:常州工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1