基于深层神经网络特征映射的非对称语音转换方法技术

技术编号：9597674 阅读：155 留言：0更新日期：2014-01-23 02:56

本发明专利技术公开了一种基于深层神经网络特征映射的非对称语音转换方法，属于语音转换技术领域。本发明专利技术的一种基于深层神经网络特征映射的非对称语音转换方法，针对源语音和目标语音的非对称数据，首先利用深层网络的预训练功能对其进行概率建模，通过提炼语音信号中蕴含的高阶统计特性，给出网络系数的后备优选空间；其次，利用少量对称数据进行增量学习，通过优化后的传递误差来修正网络权重系数，从而实现特征参数的映射。本发明专利技术优化了网络系数结构，并将其作为深层前向预测网络的参数初始值，进而在少量对称数据的增量学习过程中，反向传导优化网络结构参数，实现说话人的个性特征参数的映射。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种，属于语音转换
。本专利技术的一种，针对源语音和目标语音的非对称数据，首先利用深层网络的预训练功能对其进行概率建模，通过提炼语音信号中蕴含的高阶统计特性，给出网络系数的后备优选空间；其次，利用少量对称数据进行增量学习，通过优化后的传递误差来修正网络权重系数，从而实现特征参数的映射。本专利技术优化了网络系数结构，并将其作为深层前向预测网络的参数初始值，进而在少量对称数据的增量学习过程中，反向传导优化网络结构参数，实现说话人的个性特征参数的映射。【专利说明】
本专利技术属于语音转换
，具体涉及一种。
技术介绍
语音转换技术，简单地说就是将一个说话人(称之为源)的声音，通过某种手段进行变换，使其听起来仿佛是另一个说话人(称之为目标)说的话。语音转换属于交叉性的学科分支，其内容既涉及到语音学、语义学及心理声学等领域的知识，又涵盖语音信号处理领域的各个方面，如语音的分析与合成、说话人识别、语音编码和增强等。语音转换的最终目标是提供即时的、可以自动快速适应任何说话者的语音服务，这个系统不需要或者很少需要用户训练就可以针对所有用户和各种条件，良好地发挥功用。然而，现阶段的语音转换技术还做不到这一点。目前的系统一方面严格限制用户措词造句的方式(即需要对称数据进行训练)，另一方面还需求较大的数据量来训练系统。针对上述问题，目前已存在一些应对方案。例如，针对“非对称数据”问题，有学者提出先用矢量量化算法对源和目标说话人的特征空间进行划分，然后比较声道长度归一化后的模板距离，从中选择源和说话人对应的码字，最后在同一码字...

【技术保护点】
基于深层神经网络特征映射的非对称语音转换方法，其特征在于，包括如下步骤：1）在已有源语音信号的基础上，根据采集到的目标语音信号采集具有相同语义内容的源语音信号，形成包含非对称源语音信号、对称源语音信号、目标语音信号在内的训练用语音信号；采用谐波加随机模型对训练用语音信号进行分解，分别得到非对称源语音信号的基音频率轨迹、非对称源语音信号的谐波声道谱参数的幅度值和相位值、对称源语音信号的基音频率轨迹、目标语音信号的基音频率轨迹、对称源语音信号的谐波声道谱参数的幅度值和相位值、目标语音信号的谐波声道谱参数的幅度值和相位值；根据对称源语音信号的基音频率轨迹和目标语音信号的基音频率轨迹，建立源语音基音频率的高斯模型和目标语音基音频率的高斯模型；2）分别对非对称源语音信号的谐波声道谱参数的幅度值和相位值、对称源语音信号的谐波声道谱参数的幅度值和相位值、目标语音信号的谐波声道谱参数的幅度值和相位值进行降维处理，将声道参数转化为线性预测参数，进而产生适用于语音转换的线性谱频率参数；3）利用步骤2）中得到的非对称源语音信号的线性谱频率参数对深层置信网络进行非监督训练，得到训练完成的深层置信网络；4）利用...

【技术特征摘要】

【专利技术属性】
技术研发人员：鲍静益，徐宁，
申请(专利权)人：常州工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人