基于一对多码书映射的语音转换方法技术

技术编号:10158805 阅读:135 留言:0更新日期:2014-07-01 13:08
本发明专利技术公开了一种基于一对多码书映射的语音转换方法,对源语音码书与目标语音码书的一对多映射关系的建立,从平行数据库中随机提取一部分语音,对齐并提取声道参数后快速建立源与目标语音码书;估算用于训练的数据中源与目标特征参数对应于其各自码书的权重,通过统计与分析二者的关系来建立源与目标语音的权重映射关系,进而掌握个性特征的映射规则,实现高质量、快速的语音转换,能够解决实际环境中语音转换系统的实时性、转换后相似度的问题,最终在对语音转换实时性追求的过程中减小转换效果的代价,从而提高转换结果与目标语音的相似度,具有良好的应用前景。

【技术实现步骤摘要】

本专利技术涉及一种基于一对多码书映射的语音转换方法,属于语音转换

技术介绍
语音转换技术是将某人(称之为源)的语音作为输入,对其进行特征参数的修改,使其输出语义相同但具有另一说话人(称之为目标)声音个性的语音的技术。简单地说就是将一个说话人的声音,通过某种手段进行变换,使其听起来仿佛是另一个说话人说的话,语音转换是音信号处理领域一个较新的分支,属于交叉性的学科分支,其内容既涵盖语音的分析与合成、说话人识别、语音编码和增强等语音处理领域的各方面又涉及到语音学、语义学及心理声学等领域的知识。近年来,语音转换技术在许多语音研究者的努力下已经初成一些体系,如隐马尔可夫模型、人工神经网络、统计映射法等,早年,Stylianou等人通过高斯混合模型实现了对特征参数的映射,继而该方法也成为了当前较为主流的方法之一,语音转换的最终目标是实时化、智能化,因此转换速度与转换效果是语音转换技术最主要的追求目标。然而,以高斯混合模型训练为代表的现阶段的转换技术需要对每一段输入的语音进行进行映射规则的训练,其计算量大、消耗时间较多,很难满足语音转换的实时性要求。针对上述问题,目前已存在一些应对方案,例如,针对“训练过程的时间消耗”问题,早期有学者提出矢量量化算法:先对用于训练的平行数据进行线性预测分析,利用矢量量化运算将平行数据的的声道包络参数划分为若干码本,然后对数据进行动态时间规整对齐并计算统计直方图,最后将统计的直方图作为加权因子建立转换规则。针对矢量量化算法的转换结果两帧之间有间断性的缺点,Shikano等人提出模糊矢量量化算法,该算法在转换时考虑到了所有源和目标码字之间的关系,然后将其加权叠加,以达到对参数进行平滑的效果,但是语音转换后相似度低。除此之外,Arslan等人提出基于分段码书的说话人映射算法,他们对输入的语音帧首先按照所属的音素类别进行分类,并采用了线性谱频率作为特征参数建立源与目标语音一对一映射的码书,但此过程复杂,处理时间长。
技术实现思路
本专利技术的目的是克服现有技术存在的不足,本专利技术的基于一对多码书映射的语音转换方法,能够解决实际环境中语音转换系统的实时性、转换后相似度的问题,最终在对语音转换实时性追求的过程中减小转换效果的代价,从而提高转换结果与目标语音的相似度,具有良好的应用前景。为了达到上述目的,本专利技术所采用的技术方案是:基于一对多码书映射的语音转换方法,其特征在于:包括以下步骤,步骤(1),训练阶段,用于建立源码书与目标码书的一对多关系,包括以下步骤,(A)对平行的语音数据采用谐波随机模型进行语音分析;(B)从语音分析得到的模型参数中提取声道特征参数和基音频率;(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐;(D)从对齐的特征参数中随机提取部分数据作为码书,码书包括源语音码书和目标码书;(E)将剩余与码书不重叠的对齐数据作为训练数据,分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重,分析统计源语音与对应目标语音的权重的映射关系;(F)通过分析统计的权重关系,建立源语音与目标码书的一对多映射关系;步骤(2),转换阶段,用于实现语音特征的映射,合成转换后的语音,以下步骤,(H)根据建立源语音与目标码书的一对多映射关系,实现对语音特征的映射;(G)进行参数内插和相位补偿,合成转换后的语音。前述的基于一对多码书映射的语音转换方法,其特征在于:(A)对平行的语音数据采用谐波随机模型进行语音分析的方法,包括如下步骤,(A1),对语音数据进行固定时长的分帧,用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧;(A2),在浊音信号帧部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域,再利用最小二乘算法估计得到离散的谐波幅度值和相位值;(A3),在清音信号帧部分,利用经典的线性预测分析法对其进行分析,得到线性预测系数。前述的基于一对多码书映射的语音转换方法,其特征在于:(B)从语音分析得到的模型参数中提取声道特征参数和基音频率的方法,包括以下步骤,(B1),对(A2)得到的离散的谐波幅度值求取平方;(B2),根据功率谱密度函数和自相关函数的一一对应关系,得到(A3)线性预测系数的托普里茨矩阵方程,求解该方程,将线性预测系数转换为线性谱频率系数。前述的基于一对多码书映射的语音转换方法,其特征在于:(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐,对齐准则为:对于两个不等长的特征参数序列,利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上,实现一一对应的匹配关系;在现参数集合的对齐过程中,通过迭代优化,最终获得时间匹配函数。前述的基于一对多码书映射的语音转换方法,其特征在于:(D)从对齐的特征参数中随机提取部分数据作为目标码书的过程是从对齐后的特征参数对中随机提取出特征参数对,将其中每一个源语音特征参数的矢量作为一个源语音码字,组合成源语音码书;其对应的目标语音特征参数组合成目标码书。前述的基于一对多码书映射的语音转换方法,其特征在于:(E)将剩余与码书不重叠的对齐数据作为训练数据,分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重,分析统计源语音与对应目标语音的权重的映射关系的方法,包括以下步骤,(E1),分别估算源语音与目标语音的线性谱频率参数矢量与其对应码书中每个码字的距离;(E2),根据其与码书中每个码字的距离,计算出其对应于码书中各码字的权重;(E3),分析统计源语音与对应目标语音的权重的映射关系。前述的基于一对多码书映射的语音转换方法,其特征在于:(G)进行参数内插和相位补偿,合成转换后的语音的方法,包括以下步骤,(G1),根据浊音信号帧部分转换后的线性谱频率参数估算其谐波参数;(G2),将浊音信号帧部分的离散谐波幅度值和相位值用作正弦信号的幅度值和相位值,并进行叠加,运用内插和相位进行补偿,得到补偿后浊音信号帧部分;(G3),将清音信号帧部分的白噪声信号通过全极点滤波器,得到滤波后清音信号帧部分;(G4),将补偿后浊音信号帧部分和滤波后清音信号帧部分进行叠加,得到合成转换的重构语音信号。本专利技术的有益效果是:本专利技术的基于一对多码本文档来自技高网
...
基于一对多码书映射的语音转换方法

【技术保护点】
基于一对多码书映射的语音转换方法,其特征在于:包括以下步骤,步骤(1),训练阶段,用于建立源码书与目标码书的一对多关系,包括以下步骤,(A)对平行的语音数据采用谐波随机模型进行语音分析;(B)从语音分析得到的模型参数中提取声道特征参数和基音频率;(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐;(D)从对齐的特征参数中随机提取部分数据作为码书,码书包括源语音码书和目标码书;(E)将剩余与码书不重叠的对齐数据作为训练数据,分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重,分析统计源语音与对应目标语音的权重的映射关系;(F)通过分析统计的权重关系,建立源语音与目标码书的一对多映射关系; 步骤(2),转换阶段,用于实现语音特征的映射,合成转换后的语音,以下步骤,(H)根据建立源语音与目标码书的一对多映射关系,实现对语音特征的映射;(G)进行参数内插和相位补偿,合成转换后的语音。

【技术特征摘要】
1.基于一对多码书映射的语音转换方法,其特征在于:包括以下步骤,
步骤(1),训练阶段,用于建立源码书与目标码书的一对多关系,包括以下步骤,
(A)对平行的语音数据采用谐波随机模型进行语音分析;
(B)从语音分析得到的模型参数中提取声道特征参数和基音频率;
(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐;
(D)从对齐的特征参数中随机提取部分数据作为码书,码书包括源语音码书和目标码书;
(E)将剩余与码书不重叠的对齐数据作为训练数据,分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重,分析统计源语音与对应目标语音的权重的映射关系;
(F)通过分析统计的权重关系,建立源语音与目标码书的一对多映射关系;
 步骤(2),转换阶段,用于实现语音特征的映射,合成转换后的语音,以下步骤,
(H)根据建立源语音与目标码书的一对多映射关系,实现对语音特征的映射;
(G)进行参数内插和相位补偿,合成转换后的语音。
2.根据权利要求1所述的基于一对多码书映射的语音转换方法,其特征在于:(A)对平行的语音数据采用谐波随机模型进行语音分析的方法,包括如下步骤,
(A1),对语音数据进行固定时长的分帧,用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧;
(A2),在浊音信号帧部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域,再利用最小二乘算法估计得到离散的谐波幅度值和相位值;
(A3),在清音信号帧部分,利用经典的线性预测分析法对其进行分析,得到线性预测系数。
3.根据权利要求1或2所述的基于一对多码书映射的语音转换方法,其特征在于:(B)从语音分析得到的模型参数中提取声道特征参数和基音频率的方法,包括以下步骤,
(B1),对(A2)得到的离散的谐波幅度值求取平方;
(B2),根据功率谱密度函数和自相关函数的一一对应关系,得到(A3)线性预测系数的托普里茨矩阵方程,求...

【专利技术属性】
技术研发人员:徐宁胡芳鲍静益刘小峰汤一彬蒋爱民
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1