一种汉语电子喉语音转换方法技术

技术编号：14708281 阅读：128 留言：0更新日期：2017-02-26 00:18

本发明专利技术公开一种汉语电子喉语音转换方法，具体过程为：训练阶段：从语音材料中获取梅尔倒谱参数MCC，基频F0和频谱SP参数，训练MCC和SP的0阶段参数的GMM模型，训练动态F0的GMM模型，训练MCC的GMM模型，训练SP的NMF字典；转换阶段：根据以上得到GMM模型、NMF字典根据需求将新的源语音转换成目标语音。本发明专利技术是针对在提高EL自然度的同时减少对语音可懂性的影响而提出的。为了提高自然度，使用GMM来估算得到动态F0。接着为了提高音频可懂度，使用NMF来估算高质量的频谱用于声音重建。同时为了抑制EL设备的振动噪声，本发明专利技术还对语音特征的第0阶参数同样使用GMM的方法。最后采取了客观和主观评价来说明本混合系统在转换语音自然度和可懂性上比传统方法取得更好的结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电子语音领域，更具体地，是一种基于高斯混合模型GMM和/或非负矩阵分解NMF的汉语电子喉语音转换方法。
技术介绍
每年都有不少咽喉病患需要接受声带切除手术，以至于他们需要使用发声设备来辅助日常生活。电子喉(Electrolarynx，EL)就是这种专门用于复原声音的发声仪器。当患者尝试说话时，他将EL设备顶在下颌附近，通过机械振动以及口腔变化而发出不同声音。但是传统设备里有三个问题，第一是EL的振动频率是不变的，因此发出的声音是固定的音调，让声音显得很不自然。第二是由于机械能量转换不够到位，设备会散播出高能量振动的噪音，影响周围听众，第三是喉咙切除导致他们的特有的嗓音永远丢失，只能产生非自然人声的语音。为了解决这些问题，目前对EL语音增强的研究主要使用两个方法，第一是利用降噪的方法来提高语音质量，第二是通过统计学语音转换的方法，例如用GMM对语音频谱信息(一般是梅尔倒谱参数的第1阶到第24阶)进行估算，让声音结果更像本人声音。前者没有很明显改善语音自然度，因为它保持原来的基频F0信息不变，后者虽然通过语音转换能大幅改善自然度，但是会降低音频质量，影响语音的可懂性，这是GMM语音转换的通病。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷(不足)，提供一种汉语电子喉语音转换方法。该方法使用语音转换技术来改善汉语电子喉语音。为解决上述技术问题，本专利技术的技术方案如下：一种汉语电子喉语音转换方法，采用GMM转换或NMF转换，其具体过程分别为：GMM转换：训练阶段：步骤101：从语音材料中获取梅尔倒谱参数MCC和基频F0；步骤102：训...

【技术保护点】
一种汉语电子喉语音转换方法，其特征在于，采用GMM转换或NMF转换，其具体过程分别为：GMM转换：训练阶段：步骤101：从语音材料中获取梅尔倒谱参数MCC和基频F0；步骤102：训练MCC的0阶参数的GMM模型，训练动态F0的GMM模型，训练MCC的GMM模型；转换阶段：步骤103：根据以上模型估算0阶参数，动态F0和转换的MCC；步骤104：结合获取的0阶参数和动态F0，将转换的MCC复原成转换语音；NMF转换：训练阶段：步骤201：从语音材料中获取频谱SP参数和基频F0，步骤202：训练SP的0阶参数的GMM模型，训练动态F0的GMM模型，训练SP的NMF字典；转换阶段：步骤203：根据以上模型估算0阶参数，动态F0和转换的MCC；步骤204：结合获取的0阶参数和动态F0，将转换的MCC复原成转换语音。

【技术特征摘要】
1.一种汉语电子喉语音转换方法，其特征在于，采用GMM转换或NMF转换，其具体过程分别为：GMM转换：训练阶段：步骤101：从语音材料中获取梅尔倒谱参数MCC和基频F0；步骤102：训练MCC的0阶参数的GMM模型，训练动态F0的GMM模型，训练MCC的GMM模型；转换阶段：步骤103：根据以上模型估算0阶参数，动态F0和转换的MCC；步骤104：结合获取的0阶参数和动态F0，将转换的MCC复原成转换语音；NMF转换：训练阶段：步骤201：从语音材料中获取频谱SP参数和基频F0，步骤202：训练SP的0阶参数的GMM模型，训练动态F0的GMM模型，训练SP的NMF字典；转换阶段：步骤203：根据以上模型估算0阶参数，动态F0和转换的MCC；步骤204：结合获取的0阶参数和动态F0，将转换的MCC复原成转换语音。2.根据权利要求1所述的汉语电子喉语音转换方法，其特征在于，采用GMM转换时，训练MCC的0阶参数的GMM模型，估算0阶参数的实现过程为：训练过程：步骤301：取出源语音的MCC及其一阶差分参数△，以及目标语音的MCC的0阶参数以及其一阶差分△；步骤302：训练MCC的0阶参数的GMM模型；估算0阶参数过程：步骤303：对新获得的电子喉语音提取同样MCC和一阶差分参数△；步骤304：输入到MCC的0阶参数的GMM模型，估算出含有一阶差分△信息约束的0阶参数，存储备用。3.根据权利要求1所述的汉语电子喉语音转换方法，其特征在于，采用NMF转换时，已知每...

【专利技术属性】
技术研发人员：李明，郑桦迪，王璐婷，丘卫红，蔡跃新，陈兆聪，
申请(专利权)人：广东顺德中山大学卡内基梅隆大学国际联合研究院，中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人