基于自适应非平行训练的语音转换方法技术

技术编号:10596617 阅读:389 留言:0更新日期:2014-10-30 09:22
本发明专利技术公开了一种基于自适应非平行训练的语音转换方法,该方法包括以下步骤:从采集到的语音样本中检测出有效语音信号,对有效语音信号进行预处理;对于预处理后得到的有效语音信号提取语音特征参数;基于语音特征参数进行UBM训练,得到一个与说话人无关的UBM模型;基于所述UBM模型,得到与说话人有关的独立说话人语音模型,基于所述独立说话人语音模型,得到频谱参数和基频参数的转换函数;将待转换语音的语音特征参数输入到转换函数中,得到转换后的目标说话人的语音特征参数;将转换后的目标说话人的语音特征参数进行合成,得到目标语音。本发明专利技术不仅具有较好的转换性能,而且具有很好的系统扩展性。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种,该方法包括以下步骤:从采集到的语音样本中检测出有效语音信号,对有效语音信号进行预处理;对于预处理后得到的有效语音信号提取语音特征参数;基于语音特征参数进行UBM训练,得到一个与说话人无关的UBM模型;基于所述UBM模型,得到与说话人有关的独立说话人语音模型,基于所述独立说话人语音模型,得到频谱参数和基频参数的转换函数;将待转换语音的语音特征参数输入到转换函数中,得到转换后的目标说话人的语音特征参数;将转换后的目标说话人的语音特征参数进行合成,得到目标语音。本专利技术不仅具有较好的转换性能,而且具有很好的系统扩展性。【专利说明】
本专利技术涉及语音信号分析、语音信号处理、语音转换以及语音合成等领域,具体涉 及一种,属于语音信号处理领域中的语音转换分 支。
技术介绍
语音转换是指在保持语义内容不变的前提下,改变说话人的个性特征,使源说话 人的语音在经过变换后听起来像是目标说话人说的一样。语音转换是对语音综合与识别技 术的深度发展,语音转换作为语音信号处理领域的新的分支,具有高度的理论研究价值和 应用前途。借鉴语音分析与合成、语音识别技术、语音编解码技术、语音增强以及说话人确 认和辨识等领域的知识,为语音转换技术的发展提供技术支持,而语音转换技术的研究,又 将促进这些领域的发展,为这些领域的进一步研究提供极具价值的参考意义。 目前,语音转换从大的类别上可分为同种语言之间的语音转换和跨语言的语音转 换。对于同种语言之间的语音转换,在训练阶段,因语料的选择不同,又分为平行语料训练 和非平行语料训练。对于跨语言的语音转换,要获得平行语料是不可能的,只能通过非平行 语料来进行训练。通过几代人的努力,语音转换的研究取得了很大的发展,很多学者提出了 不同的转换方法,总结起来,大致有以下几类:矢量量化方法,线性多变量回归法,人工神经 网络法,多说话人插值转换法,高斯混合模型等。但以上的方法都是基于平行语料联合训 练的语音转换,在实际应用中还存在一些问题:1.很多情况下平行语料很难获得甚至得不 至lj;2.基于联合特征矢量的训练计算量很大,并且对语音成分对准的精度要求很高;3.联 合语音模型采用联合训练的方法使得系统的扩展不方便,灵活性很差。 针对这些问题,尽管近些年来研究人员进行了非平行语料下语音转换的研究, 但是这些方法大都还是局限于解决平行语料的限制采用的是联合语音训练方法,还不能 解决第二、三个问题。比如Mouchtaris等人于2006年发表在《IEEE Transactions on Audio, Speech and Language Processing (音频,语音和语言处理IEEE学报)》的第14卷 第 3 期的名为〈〈Nonparallel training for voice conversion based on a parameter adaptation approach (基于参数自适应方法的非平行训练语音转换)》的论文采用参数 自适应的方法去转换频谱包络;陶建华等人于2010年发表在《IEEE Transactions on Audio, Speech and Language Processing(音频,语音和语言处理IEEE会刊)》的第18卷第 5期的名为《Supervisory Data Alignment for Text-Independent Voice Conversion(基 于监督数据对齐的与文本无关的声音转换)》的论文提出了对非平行语料进行监督数 据排列的方法实现语音转换;Ling-Hui Chen等人于2011年的《IEEE International Conference on Acoustics, Speech and Signal Processing(声学,语音和信号处理的 IEEE 国际会议)》上发表了名为《Non-Parallel Training For Voice Conversion Based On FT-GMM(基于FT-GMM模型的非平行训练语音转换)》的论文中采用特征变换的高斯混合 模型(FT-GMM)进行了非平行训练语音转换的研究;Daojian Zeng等人于2010年的《2010 IEEE 10th International Conference on Signal Processing (2010 年 IEEE 学会信号处 理国际会议)》上发表了名为《Voice Conversion Using Structrued Gaussian Mixture Model (基于结构化高斯混合模型的语音转换)》的论文中运用结构化高斯混合模型实现了 基于独立说话人模型的语音转换。 由于基于平行语料的语音转换方法受到了上述种种约束,导致了语音转换技术难 以全面的走向实际应用,如通过非平行训练方法得到独立的说话人语音模型,改变源说话 人的个性特征参数,加入目标说话人的个性特征,实现源-目标之间的转换,这对语音转换 领域的发展将是巨大的贡献。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供了一种新的非平行语料训练的语音转 换方法,以解决平行语料联合训练语音转换方法中存在的以下问题:1、传统语音转换系统 中需要平行语料训练得到转换函数,而平行语料很难获取;2、传统语音转换系统需要对特 征矢量进行联合训练;3、传统语音转换系统的扩展不方便。 本专利技术方法首先提取所有语音信号的基频和短时谱,从短时谱获得相应的LPCC 参数,然后对所有的特征参数进行通用背景模型(UBM:Universal Background Model)训 练,再利用最大后验概率(MAP:Maximum a Posterior Probability)自适应方法导出具体 的说话人模型,最终得到相应的转换函数进行语音转换。 具体地,本专利技术提出的一种自适应非平行训练的语音转换方法包括以下步骤: 步骤1,从采集到的语音样本中检测出有效语音信号,对所述有效语音信号进行预 处理; 步骤2,对于预处理后得到的有效语音信号提取语音特征参数; 步骤3,基于所述语音特征参数进行UBM训练,得到一个与说话人无关的UBM模 型; 步骤4,基于所述UBM模型,得到与说话人有关的独立说话人语音模型,基于所述 独立说话人语音模型,得到频谱参数和基频参数的转换函数; 步骤5,将待转换语音的语音特征参数输入到所述步骤4得到的转换函数中,得到 转换后的目标说话人的语音特征参数; 步骤6,将转换后的目标说话人的语音特征参数进行合成,得到目标语音。 与现有技术相比,本专利技术的优点在于: 传统的语音转换方法大都采用平行语料训练源-目标说话人联合语音模型并由 此推导相应的语音转换函数,但实际应用中不仅难以得到完全平行的语料,而且训练联合 语音模型需要消耗大量的计算、系统扩展不方便。本专利技术避免了平行训练对语料的严苛要 求,采用非平行语料进行训练和转换,无需联合训练,而且系统扩展灵活方便。 【专利附图】【附图说明】 图1是本专利技术优化自适应非平行训练的语音转换方法的流程图; 图2是本专利技术频谱参数转换本文档来自技高网
...

【技术保护点】
一种基于自适应非平行训练的语音转换方法,其特征在于,该方法包括以下步骤:步骤1,从采集到的语音样本中检测出有效语音信号,对所述有效语音信号进行预处理;步骤2,对于预处理后得到的有效语音信号提取语音特征参数;步骤3,基于所述语音特征参数进行UBM训练,得到一个与说话人无关的UBM模型;步骤4,基于所述UBM模型,得到与说话人有关的独立说话人语音模型,基于所述独立说话人语音模型,得到频谱参数和基频参数的转换函数;步骤5,将待转换语音的语音特征参数输入到所述步骤4得到的转换函数中,得到转换后的目标说话人的语音特征参数;步骤6,将转换后的目标说话人的语音特征参数进行合成,得到目标语音。

【技术特征摘要】

【专利技术属性】
技术研发人员:王飞跃孔庆杰熊刚朱凤华朱春雷
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1