【技术实现步骤摘要】
一种说话人不相干的神经网络声码器系统
本专利技术涉及经网络
,特别是涉及一种说话人不相干的神经网络声码器系统。
技术介绍
随着神经网络技术的迅速发展,语音合成效果也得到了快速的提升。逼真的语音合成技术已经应用到新闻播报、有声读物、语音助手、智能客服、虚拟人物、语音克隆等方面。伴随着人工智能技术的不断发展和应用场景的不断增多,人们对语音合成技术的要求也越来越高。不仅要求语音合成的音质逼真,而且还希望能合成各式各样的音色。这给语音合成技术的发展和应用部署带来了不少挑战。目前主流的语音合成技术系统主要有三个子系统组成:语音合成前端系统(将文本转为音素);语音合成后端系统(将音素转为声学特征);声码器系统(将声学特征转为音频)。其中,声码器系统对合成音质起了至关重要的重要。近年来,随着WaveNet、SampleRNN、WaveRNN等神经网络构建的声码器系统的成功,现有的单音色声码器系统已经能合成媲美真实录音声音。但是这些单音色声码器系统只能合成单一音色的声音,无法用单一的系统支撑多个音色的高质量合成。因此,如果音色 ...
【技术保护点】
1.一种说话人不相干的神经网络声码器系统,其特征在于,包括有以下步骤:/nS1,音色特征提取模块接收声学特征M,并对声学特征进行音色特征提取,得到了音色特征信息S;/nS2,波形生产模块接收到声学特征M和音色提取模块输出的音色特征S,进行波形生成处理,得到语音波形W。/n
【技术特征摘要】
1.一种说话人不相干的神经网络声码器系统,其特征在于,包括有以下步骤:
S1,音色特征提取模块接收声学特征M,并对声学特征进行音色特征提取,得到了音色特征信息S;
S2,波形生产模块接收到声学特征M和音色提取模块输出的音色特征S,进行波形生成处理,得到语音波形W。
2.根据权利要求1所述的一种说话人不相干的神经网络声码器系统,其特征在于:所述S1中,声学特征可以选择梅尔频谱、梅尔倒谱、线性幅度谱。
3.根据权利要求1所述的一种说话人不相干的神经网络声码器系统,其特征在于:所述S1中,音色特征提取模块包括传统音色特征提取模块,传统音色特征提取模块从输入的声学特征M中提取出传统的音色特征特征sp,传统音色特征可以选择为基音频、清浊音标记、幅度谱包络、线性预测系数或线谱对;
特征映射网络模块将传统音色特征提取模块输出的传统音色特...
【专利技术属性】
技术研发人员:周俊明,何颖洋,吴东海,黄博贤,
申请(专利权)人:广州深声科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。