基于一对多码书映射的语音转换方法技术

技术编号：10158805 阅读：135 留言：0更新日期：2014-07-01 13:08

本发明专利技术公开了一种基于一对多码书映射的语音转换方法，对源语音码书与目标语音码书的一对多映射关系的建立，从平行数据库中随机提取一部分语音，对齐并提取声道参数后快速建立源与目标语音码书；估算用于训练的数据中源与目标特征参数对应于其各自码书的权重，通过统计与分析二者的关系来建立源与目标语音的权重映射关系，进而掌握个性特征的映射规则，实现高质量、快速的语音转换，能够解决实际环境中语音转换系统的实时性、转换后相似度的问题，最终在对语音转换实时性追求的过程中减小转换效果的代价，从而提高转换结果与目标语音的相似度，具有良好的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于一对多码书映射的语音转换方法，属于语音转换

技术介绍
语音转换技术是将某人（称之为源）的语音作为输入，对其进行特征参数的修改，使其输出语义相同但具有另一说话人（称之为目标）声音个性的语音的技术。简单地说就是将一个说话人的声音，通过某种手段进行变换，使其听起来仿佛是另一个说话人说的话，语音转换是音信号处理领域一个较新的分支，属于交叉性的学科分支，其内容既涵盖语音的分析与合成、说话人识别、语音编码和增强等语音处理领域的各方面又涉及到语音学、语义学及心理声学等领域的知识。近年来，语音转换技术在许多语音研究者的努力下已经初成一些体系，如隐马尔可夫模型、人工神经网络、统计映射法等，早年，Stylianou等人通过高斯混合模型实现了对特征参数的映射，继而该方法也成为了当前较为主流的方法之一，语音转换的最终目标是实时化、智能化，因此转换速度与转换效果是语音转换技术最主要的追求目标。然而，以高斯混合模型训练为代表的现阶段的转换技术需要对每一段输入的语音进行进行映射规则的训练，其计算量大、消耗时间较多，很难满足语音转换的实时性要求。针对上述问题，目前已存在一些应对方案，例如，针对“训练过程的时间消耗”问题，早期有学者提出矢量量化算法：先对用于训练的平行数据进行线性预测分析，利用矢量量化运算将平行数据的的声道包络参数划分为若干码本，然后对数据进行动态时间规整对齐...
基于一对多码书映射的语音转换方法

【技术保护点】
基于一对多码书映射的语音转换方法，其特征在于：包括以下步骤，步骤（1），训练阶段，用于建立源码书与目标码书的一对多关系，包括以下步骤，（A）对平行的语音数据采用谐波随机模型进行语音分析；（B）从语音分析得到的模型参数中提取声道特征参数和基音频率；（C）利用动态时间规整算法将源和目标的声道特征参数进行对齐；（D）从对齐的特征参数中随机提取部分数据作为码书，码书包括源语音码书和目标码书；（E）将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系；（F）通过分析统计的权重关系，建立源语音与目标码书的一对多映射关系；步骤（2），转换阶段，用于实现语音特征的映射，合成转换后的语音，以下步骤，（H）根据建立源语音与目标码书的一对多映射关系，实现对语音特征的映射；（G）进行参数内插和相位补偿，合成转换后的语音。

【技术特征摘要】
1.基于一对多码书映射的语音转换方法，其特征在于：包括以下步骤，
步骤（1），训练阶段，用于建立源码书与目标码书的一对多关系，包括以下步骤，
（A）对平行的语音数据采用谐波随机模型进行语音分析；
（B）从语音分析得到的模型参数中提取声道特征参数和基音频率；
（C）利用动态时间规整算法将源和目标的声道特征参数进行对齐；
（D）从对齐的特征参数中随机提取部分数据作为码书，码书包括源语音码书和目标码书；
（E）将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系；
（F）通过分析统计的权重关系，建立源语音与目标码书的一对多映射关系；
步骤（2），转换阶段，用于实现语音特征的映射，合成转换后的语音，以下步骤，
（H）根据建立源语音与目标码书的一对多映射关系，实现对语音特征的映射；
（G）进行参数内插和相位补偿，合成转换后的语音。
2.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于：（A）对平行的语音数据采用谐波随机模型进行语音分析的方法，包括如下步骤，
（A1），对语音数据进行固定时长的分帧，用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧；
（A2），在浊音信号帧部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域，再利用最小二乘算法估计得到离散的谐波幅度值和相位值；
（A3），在清音信号帧部分，利用经典的线性预测分析法对其进行分析，得到线性预测系数。
3.根据权利要求1或2所述的基于一对多码书映射的语音转换方法，其特征在于：（B）从语音分析得到的模型参数中提取声道特征参数和基音频率的方法，包括以下步骤，
（B1），对（A2）得到的离散的谐波幅度值求取平方；
（B2），根据功率谱密度函数和自相关函数的一一对应关系，得到（A3）线性预测系数的托普里茨矩阵方程，求...

【专利技术属性】
技术研发人员：徐宁，胡芳，鲍静益，刘小峰，汤一彬，蒋爱民，
申请(专利权)人：河海大学常州校区，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人