一种汉语电子喉语音转换方法技术

技术编号:14708281 阅读:128 留言:0更新日期:2017-02-26 00:18
本发明专利技术公开一种汉语电子喉语音转换方法,具体过程为:训练阶段:从语音材料中获取梅尔倒谱参数MCC,基频F0和频谱SP参数,训练MCC和SP的0阶段参数的GMM模型,训练动态F0的GMM模型,训练MCC的GMM模型,训练SP的NMF字典;转换阶段:根据以上得到GMM模型、NMF字典根据需求将新的源语音转换成目标语音。本发明专利技术是针对在提高EL自然度的同时减少对语音可懂性的影响而提出的。为了提高自然度,使用GMM来估算得到动态F0。接着为了提高音频可懂度,使用NMF来估算高质量的频谱用于声音重建。同时为了抑制EL设备的振动噪声,本发明专利技术还对语音特征的第0阶参数同样使用GMM的方法。最后采取了客观和主观评价来说明本混合系统在转换语音自然度和可懂性上比传统方法取得更好的结果。

【技术实现步骤摘要】

本专利技术涉及电子语音领域,更具体地,是一种基于高斯混合模型GMM和/或非负矩阵分解NMF的汉语电子喉语音转换方法
技术介绍
每年都有不少咽喉病患需要接受声带切除手术,以至于他们需要使用发声设备来辅助日常生活。电子喉(Electrolarynx,EL)就是这种专门用于复原声音的发声仪器。当患者尝试说话时,他将EL设备顶在下颌附近,通过机械振动以及口腔变化而发出不同声音。但是传统设备里有三个问题,第一是EL的振动频率是不变的,因此发出的声音是固定的音调,让声音显得很不自然。第二是由于机械能量转换不够到位,设备会散播出高能量振动的噪音,影响周围听众,第三是喉咙切除导致他们的特有的嗓音永远丢失,只能产生非自然人声的语音。为了解决这些问题,目前对EL语音增强的研究主要使用两个方法,第一是利用降噪的方法来提高语音质量,第二是通过统计学语音转换的方法,例如用GMM对语音频谱信息(一般是梅尔倒谱参数的第1阶到第24阶)进行估算,让声音结果更像本人声音。前者没有很明显改善语音自然度,因为它保持原来的基频F0信息不变,后者虽然通过语音转换能大幅改善自然度,但是会降低音频质量,影响语音的可懂性,这是GMM语音转换的通病。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷(不足),提供一种汉语电子喉语音转换方法。该方法使用语音转换技术来改善汉语电子喉语音。为解决上述技术问题,本专利技术的技术方案如下:一种汉语电子喉语音转换方法,采用GMM转换或NMF转换,其具体过程分别为:GMM转换:训练阶段:步骤101:从语音材料中获取梅尔倒谱参数MCC和基频F0;步骤102:训练MCC的0阶参数的GMM模型,训练动态F0的GMM模型,训练MCC的GMM模型;转换阶段:步骤103:根据以上模型估算0阶参数,动态F0和转换的MCC;步骤104:结合获取的0阶参数和动态F0,将转换的MCC复原成转换语音;NMF转换:训练阶段:步骤201:从语音材料中获取频谱SP参数和基频F0,步骤202:训练SP的0阶参数的GMM模型,训练动态F0的GMM模型,训练SP的NMF字典;转换阶段:步骤203:根据以上模型估算0阶参数,动态F0和转换的MCC;步骤204:结合获取的0阶参数和动态F0,将转换的MCC复原成转换语音。优选地,采用GMM转换时,训练MCC的0阶参数的GMM模型,估算0阶参数的实现过程为:训练过程:步骤301:取出源语音的MCC及其一阶差分参数△,以及目标语音的MCC的0阶参数以及其一阶差分△;步骤302:训练MCC的0阶参数的GMM模型;估算0阶参数过程:步骤303:对新获得的电子喉语音提取同样MCC和一阶差分参数△;步骤304:输入到MCC的0阶参数的GMM模型,估算出含有一阶差分△信息约束的0阶参数,存储备用。优选地,采用NMF转换时,已知每个人的语音可以分解成两个非负矩阵,分解公式如下:X=H·WX是电子喉的特征和自然人声特征的联合特征,W是要估算的字典,H是激活矩阵;则训练NMF字典,并基于NMF字典将新的源语音转换成目标语音的实现过程为:训练过程:步骤401:先提取两种语音材料的频谱信息高维特征SP;步骤402:使用动态规整的方法对齐两个特征;步骤403:拼接成联合特征训练NMF两个字典:源说话人的字典和目标说话人的字典;转换过程:步骤404:对新获得的电子喉语音提取同样高维特征;步骤405:利用已有的源说话人字典W对该语音进行分解,得到一个激活矩阵H;步骤406:令源语音和目标语音的激活矩阵是相似的,则将该激活矩阵H乘以目标说话人字典,得到估算出来的目标高维频谱SP;步骤407:再和其他成分一起还原成语音。优选地,所述步骤402,是使用低维的MCC来对齐各个帧,以达到对齐两个特征。优选地,采用NMF转换时,训练动态F0模型,估算动态F0的实现过程为:训练过程步骤501:在分解好的两种语音材料中,取出源语音的MCC和一阶差分参数△,以及目标语音的F0和一阶差分△;步骤502:拼接成联合特征训练一个动态F0的GMM模型;估算动态F0过程:步骤503:对新获得的电子喉语音提取MCC特征和一阶差分参数△;步骤504:输入到动态F0的GMM模型,估算出有一阶差分△信息约束的动态F0,存储备用。本专利技术使用语音转换技术来改善汉语电子喉语音,特别是混合了高斯混合模型(GaussianMixtureModel,GMM)和非负矩阵分解(Non-negativeMatrixFactorization,NMF)的方法来提高电子喉语音质量,并且添加梅尔倒谱参数(Mel-cepstralcoefficient,MCC)的第0阶参数来抑制噪声,在NMF方法下使用频谱SP第0阶参数。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术针对在提高EL自然度的同时减少对语音可懂性的影响,提出了一种混合了NMF和GMM的方法来实施语音转换。为了提高自然度,考虑到F0的影响,并使用GMM来估算动态F0。接着为了提高音频可懂度,使用NMF来估算高质量的频谱用于声音重建。同时为了抑制EL设备的振动噪声,本专利技术还对语音特征的第0阶参数同样使用GMM的方法,通过合成0阶参数来降噪。最后采取了客观和主观评价来说明本混合系统在自然度和可懂性上比传统所得的更好结果。附图说明图1是基于GMM的语音转换框架图。图2是基于NMF的语音转换框架图。图3是MCC第0阶参数和F0信息的训练材料结构图。图4是本专利技术中的语音转换框架图。图5是本专利技术的主观评测结果。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。一种汉语电子喉语音转换方法,具体过程为:训练阶段:从语音材料中获取MCC,基频F0和频谱SP参数,训练MCC和SP的0阶段参数的GMM模型,训练动态F0模型,训练MCC的GMM模型,训练SP的NMF字典;转换阶段:利用以上的GMM模型、NMF字典根据对转换效果的要求进行组合配置,将新的源语音转换成目标语音。优选的,训练0阶段参数的GMM模型,动态F0的GMM模型,并基于GMM模型将新的源语音转换成目标语音的实现过程为:训练过程步骤101:在分解好的两种语音材料,取出源语音的MCC和一阶差分参数△,以及目标语音的MCC和一阶差分△,根据MCC动态规整信息对齐两个特征,拼接成联合特征训练一个MCC的GMM模型;步骤102:在分解好的两种语音材料,取出源语音的MCC和一阶差分参数△,以及目标语音的0阶参数MCC和一阶差分△,拼接成联合特征训练一个0阶参数的GMM模型;步骤103:在分解好的两种语音材料,取出源语音的MCC和一阶差分参数△,以及目标语音的F0和一阶差分△,拼接成联合特征训练一个动态F0的GMM模型;估算0阶参数过程:步骤104:对新获得的电子喉语音提取MCC和一阶差分参数△;步骤105:输入到0阶参数的GMM模型,估算出有一阶差分△信息约束的0阶参数;估算动态F0过程:步骤106:对新获得的电子喉语音提取MCC和一阶差分参数△;步骤107:输入到动态本文档来自技高网...
一种汉语电子喉语音转换方法

【技术保护点】
一种汉语电子喉语音转换方法,其特征在于,采用GMM转换或NMF转换,其具体过程分别为:GMM转换:训练阶段:步骤101:从语音材料中获取梅尔倒谱参数MCC和基频F0;步骤102:训练MCC的0阶参数的GMM模型,训练动态F0的GMM模型,训练MCC的GMM模型;转换阶段:步骤103:根据以上模型估算0阶参数,动态F0和转换的MCC;步骤104:结合获取的0阶参数和动态F0,将转换的MCC复原成转换语音;NMF转换:训练阶段:步骤201:从语音材料中获取频谱SP参数和基频F0,步骤202: 训练SP的0阶参数的GMM模型,训练动态F0的GMM模型,训练SP的NMF字典;转换阶段:步骤203:根据以上模型估算0阶参数,动态F0和转换的MCC;步骤204:结合获取的0阶参数和动态F0,将转换的MCC复原成转换语音。

【技术特征摘要】
1.一种汉语电子喉语音转换方法,其特征在于,采用GMM转换或NMF转换,其具体过程分别为:GMM转换:训练阶段:步骤101:从语音材料中获取梅尔倒谱参数MCC和基频F0;步骤102:训练MCC的0阶参数的GMM模型,训练动态F0的GMM模型,训练MCC的GMM模型;转换阶段:步骤103:根据以上模型估算0阶参数,动态F0和转换的MCC;步骤104:结合获取的0阶参数和动态F0,将转换的MCC复原成转换语音;NMF转换:训练阶段:步骤201:从语音材料中获取频谱SP参数和基频F0,步骤202:训练SP的0阶参数的GMM模型,训练动态F0的GMM模型,训练SP的NMF字典;转换阶段:步骤203:根据以上模型估算0阶参数,动态F0和转换的MCC;步骤204:结合获取的0阶参数和动态F0,将转换的MCC复原成转换语音。2.根据权利要求1所述的汉语电子喉语音转换方法,其特征在于,采用GMM转换时,训练MCC的0阶参数的GMM模型,估算0阶参数的实现过程为:训练过程:步骤301:取出源语音的MCC及其一阶差分参数△,以及目标语音的MCC的0阶参数以及其一阶差分△;步骤302:训练MCC的0阶参数的GMM模型;估算0阶参数过程:步骤303:对新获得的电子喉语音提取同样MCC和一阶差分参数△;步骤304:输入到MCC的0阶参数的GMM模型,估算出含有一阶差分△信息约束的0阶参数,存储备用。3.根据权利要求1所述的汉语电子喉语音转换方法,其特征在于,采用NMF转换时,已知每...

【专利技术属性】
技术研发人员:李明郑桦迪王璐婷丘卫红蔡跃新陈兆聪
申请(专利权)人:广东顺德中山大学卡内基梅隆大学国际联合研究院中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1