当前位置: 首页 > 专利查询>常州工学院专利>正文

一种基于隐高斯随机场的语音转换系统技术方案

技术编号:10527863 阅读:198 留言:0更新日期:2014-10-09 12:43
本发明专利技术公开了一种基于隐高斯随机场的语音转换系统。该系统包括语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块。语音分析与合成模块,用于对原始语音信号进行分解与重组。语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到在时间上同步的特征参数集合。语音参数转换映射模块,用于捕捉A、B两个特征参数集合之间的映射关系,从而得到映射规律。该系统的核心技术点围绕高斯随机场理论展开,通过对基本高斯随机场结构进行变更,产生一种新型的隐高斯随机场模型,从而使系统在数据量匮乏的环境下产生理想的效果。

【技术实现步骤摘要】
一种基于隐高斯随机场的语音转换系统
本专利技术涉及一种语音信号处理系统,即通过改变一个说话人A的声音特征,使其 听起来仿佛是另一个说话人B的声音,该技术被称为语音转换。
技术介绍
语音转换技术作为语音信号处理领域的一个重要分支,其目的在于改变任意一个 说话人的话音个性特征,使其听起来像另一个指定的目标人的声音。该技术有着重要的应 用价值,例如用于文语转换器末端,从而使机器产生惟妙惟肖的各种语音,又如用于电影娱 乐配音,涉密安全等领域。目前较为成熟的语音转换方法,一般是基于高斯混合模型构建起 来的。该类方法能从概率分布的角度对语音数据进行建模和分析,具有(1)充分利用数据 的统计特性,(2)预测结果符合严格的数学理论等优势。然而,由于语音参数一般为高维矢 量,因此在数据量相对匮乏条件下,传统语音转换方法易出现维数灾难问题,从而导致系 统产生不稳定因素。
技术实现思路
为了克服以上不足,本专利技术提供了一种对数据量匮乏因素较为鲁棒的语音转换方 案,其本质是实现可靠的高维矢量的映射和转换。本专利技术的核心技术点围绕语音参数转换 映射模块展开,通过构建一种新型的具有隐层结构的高斯随机场模型,一方面用来对高维 矢量进行降维,另一方面,实现特征参数的非线性映射,达到语音转换的目的。 为了达到以上目的,本专利技术的主要
技术实现思路
如下: -种基于隐高斯随机场的语音转换系统,包含语音分析模块、语音合成模块、语音 参数预处理模块、语音参数转换映射模块; 所述语音分析模块与语音合成模块,用于对原始语音信号进行分解与重组,分解 与重组所涉及到的中间参数,被称为特征参数; 所述语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到 在时间上同步的特征参数集合; 所述语音参数转换映射模块,用于捕捉A、B两个特征参数集合之间的映射关系, 从而得到映射规律。 上述语音分析模块与语音合成模块分别由如下操作步骤组成: 语音分析: (al)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计; (a2)在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分 的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值; (a3)在清音信号部分,利用经典的线性预测分析法对其进行分析,从而得到线性 预测系数。 语音合成: (bl)将浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值,并进 行叠加;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真; (b2)将清音信号的白噪声信号通过一个全极点滤波器,可得到近似重构信号; (b3)将浊音信号和清音信号进行叠加,可得到重构的语音信号。 上述语音参数预处理模块包含两个子模块,分别为特征参数提取和特征参数对 齐,其操作步骤分别如下, 特征参数提取: (cl)对(a2)中得到的离散谐波幅度求取平方; (C2)根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数 的托普里茨矩阵方程,求解该方程; (c3)将线性预测系数转换为线性谱频率系数,该系数即为特征参数。 特征参数对齐: (dl)对于说话人A和B的两个不等长的特征参数序列,利用动态时间规整算法将 其中一者的时间轴非线性的映射到另一者的时间轴上,实现一一对应的匹配关系; (d2)在参数集合的对齐的过程中,通过迭代优化一个预设的累积失真函数,并限 制搜索区域,最终获得时间匹配函数。 上述语音参数转换映射模块以隐高斯随机场为主要框架,包含两种阶段,训练阶 段和转换阶段,具体操作步骤如下, 训练阶段: (el)构建包含隐层结构的高斯随机场模型,设观测向量(特征参数)为D维向量, 在给定K维隐层向量的条件下(K〈D),观测向量组成的序列是一个高斯随机过程,该随机过 程的性状由均值参数序列和方差参数序列唯一确定; (e2)用马尔科夫链蒙特卡洛方法来近似估计隐层向量和模型参数(即均值参数 和方差参数)的联合后验概率密度函数; (e3)对联合概率密度函数进行边缘化,分别得到对隐层向量概率分布和模型参数 的概率分布的估计,至此,隐高斯随机场模型结构被确定; 转换阶段: (Π )在给定输入观测向量集合的条件下,根据训练好的隐高斯随机场模型结构, 求取隐层向量概率分布函数; (f2)求取隐层向量集合的后验条件期望,得到映射输出; (f3)在给定映射输出向量的条件下,根据隐高斯随机场的定义,可以产生出新的 观测向量集合,该集合里的参数,即为映射后的语音特征参数。 借由上述技术方案,本专利技术至少具有下列优点: 1、其语音转换系统适合用于数据量匮乏的特殊环境。 在数据量匮乏的条件下,由于语音特征参数一般为高维矢量,因此容易陷入维数 灾难问题,导致系统输出不稳定,甚至引起崩溃。通过采用本专利技术的方法,将高维矢量通过 非线性投影至低维空间,可以有效解决该问题。 2、其语音转换系统非线性映射能力强,系统性能优异。 通过构建基于高斯随机场的语音转换方法,能充分利用高斯随机场的非线性映射 的能力,对于语音信号这类变化性复杂的信号格外适用。根据初步实验结果,基于高斯随机 场模型及其衍生模型(隐高斯随机场)的语音转换系统,其性能能达到目前国际领先水平。 尤其是在数据量匮乏的条件下,其性能格外优异。 【附图说明】 图1为本专利技术的语音转换系统框图。 【具体实施方式】 下面结合附图对本专利技术进一步说明。 如图1所示,一种基于隐高斯随机场的语音转换系统,包括语音分析模块、语音合 成模块、语音参数预处理模块、语音参数转换映射模块。所述语音分析模块与语音合成模 块,用于对原始语音信号进行分解与重组。分解与重组所涉及到的中间参数,被称为特征参 数;所述语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到在时 间上同步的特征参数集合;所述语音参数转换映射模块,用于捕捉A、B两个特征参数集合 之间的映射关系,从而得到映射规律。 语音分析模块包含如下操作: (al)对语音信号进行固定时长的分帧,帧长20ms,帧移10ms。在一帧语音中,求解 该语音的自相关函数,利用自相关函数的第一旁瓣峰值来近似估计基音周期,基音周期的 倒数即为基音频率; (a2)根据(al)步骤中得到的基音频率值(清音为0,浊音为非0),确定该帧语音 为清音或浊音。若为浊音,则为其设置一个最大浊音频率分量,用来划分谐波成分和随机成 分的主能量区域。在最大浊音频率以下的频段,对信号进行建模--利用若干个正弦波的 叠加来拟合信号。利用最小二乘算法来约束求解正弦波的离散幅度值和相位值;对于大于 最大浊音频率的信号频段,不做处理; (a3)若该帧信号为在清音,则利用经典的线性预测分析法对其进行分析,建立一 个全极点模型,并利用最小二乘方法约束求解模型系数,从而得到线性预测系数。 语音合成模块包含如下操作: (bl)对于浊音信号,将其离散谐波幅度和相位值用作正弦信号的幅度值和相位 值,并进行叠加;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真; 本文档来自技高网...
一种基于隐高斯随机场的语音转换系统

【技术保护点】
一种基于隐高斯随机场的语音转换系统,其特征在于:包含语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块;所述语音分析模块与语音合成模块,用于对原始语音信号进行分解与重组,分解与重组所涉及到的中间参数,被称为特征参数;所述语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到在时间上同步的特征参数集合;所述语音参数转换映射模块,用于捕捉A、B两个特征参数集合之间的映射关系,从而得到映射规律。

【技术特征摘要】
1. 一种基于隐高斯随机场的语音转换系统,其特征在于:包含语音分析模块、语音合 成模块、语音参数预处理模块、语音参数转换映射模块; 所述语音分析模块与语音合成模块,用于对原始语音信号进行分解与重组,分解与重 组所涉及到的中间参数,被称为特征参数; 所述语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到在时 间上同步的特征参数集合; 所述语音参数转换映射模块,用于捕捉A、B两个特征参数集合之间的映射关系,从而 得到映射规律。2. 根据权利要求1所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述 语音分析模块的操作步骤如下: (al)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计; (a2)在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主 能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值; (a3)在清音信号部分,利用经典的线性预测分析法对其进行分析,从而得到线性预测 系数。3. 根据权利要求1所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述 语音合成模块的操作步骤如下: (bl)将浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值,并进行叠 力口;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真; (b2)将清音信号的白噪声信号通过一个全极点滤波器,得到近似重构信号; (b3)将浊音信号和清音信号进行叠加,得到重构的语音信号。4. 根据权利要求1所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述 语音参数预处理模块包含两个子模块,分别为特征参数提取模块和特征参数对齐模块。5. 根据权利要求4所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述 特征参数提取模块的操作步骤如下: (cl)对(a2)中得到的离散谐波幅度求取平方; (c2)根据功率谱密...

【专利技术属性】
技术研发人员:鲍静益徐宁
申请(专利权)人:常州工学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1