一种高保真的语音转换系统及方法技术方案

技术编号:41186641 阅读:25 留言:0更新日期:2024-05-07 22:18
本发明专利技术公开了一种高保真的语音转换系统及方法,涉及语音识别与语音合成技术领域,系统包括音频采集模块、语音识别模块、韵律编码器、解码器和声码器;音频采集模块,采集源说话人的输入音频和目标说话人的参考音频;语音识别模块,提取输入音频中的内容信息和语调信息;韵律编码器,提取参考音频的韵律信息;解码器,根据内容信息、语调信息和韵律信息生成梅尔频谱图;声码器,将梅尔频谱图转换成音频。本发明专利技术能够将任何输入音频转换至目标音色,完整保留输入音频的内容及韵律且转换后具有高保真的音质,能极大地满足各个场景的变声场景。

【技术实现步骤摘要】

本专利技术涉及语音识别与语音合成,更具体的说是涉及一种高保真的语音转换系统及方法


技术介绍

1、语音转换是指将一个人说的话以另外一个人的口吻说出来并保持所说内容不变的技术,一个生动的例子便是柯南的变声蝴蝶结。语音转换的应用场景有很多,在电影配音中,配音员和演员本人音色有明显差异,而观众总是期望能有演员本人的说话效果,此时应用语音转换技术就能将配音员说的话转换成具有演员本人音色的语音,从而增强了电影的观赏效果;在某些通话场景中,说话人不方便透露自己身份信息时可以通过语音转换技术将语音转换成另一个人说的从而达到匿名的目的;在直播领域中,某些主播由于声带的问题不具备一副好嗓子,利用语音转换技术将主播的声音转换至其他悦耳的人声上去,达到美化声音和提升直播效果的目的。

2、语音转换已有相当长的发展历史。传统的语音转换方法通过改变音频的基频、共振峰等信号处理的方式改变原始音频的音色,能达到特定的变声目的,但需要占用较多的时间去优化参数并且效果不稳定。基于深度学习的语音转换技术无论从变声场景的丰富度,亦或是转换后音频的自然度都极大的提升了语音转换的效果。现本文档来自技高网...

【技术保护点】

1.一种高保真的语音转换系统,其特征在于,包括音频采集模块、语音识别模块、韵律编码器、解码器和声码器;

2.根据权利要求1所述的一种高保真的语音转换系统,其特征在于,语音识别模块包括内容编码器和语调提取器;采用wenet算法模型作为内容编码器,采集大规模语音识别数据集训练内容编码器,训练收敛之后将输入音频输入至内容编码器获得音素后验概率,音素后验概率作为内容信息;语调提取器采用praat-parselmouth提取输入音频中的基频信息并进行量化获得语调信息。

3.根据权利要求1所述的一种高保真的语音转换系统,其特征在于,韵律信息包括整体韵律信息和隐特征韵律信息;韵...

【技术特征摘要】

1.一种高保真的语音转换系统,其特征在于,包括音频采集模块、语音识别模块、韵律编码器、解码器和声码器;

2.根据权利要求1所述的一种高保真的语音转换系统,其特征在于,语音识别模块包括内容编码器和语调提取器;采用wenet算法模型作为内容编码器,采集大规模语音识别数据集训练内容编码器,训练收敛之后将输入音频输入至内容编码器获得音素后验概率,音素后验概率作为内容信息;语调提取器采用praat-parselmouth提取输入音频中的基频信息并进行量化获得语调信息。

3.根据权利要求1所述的一种高保真的语音转换系统,其特征在于,韵律信息包括整体韵律信息和隐特征韵律信息;韵律编码器包括粗粒度韵律编码器和细粒度韵律编码器;粗粒度韵律编码器包括多层卷积层和多层池化层,从参考音频中获取目标说话人整体的韵律和音色信息,作为整体韵律信息;细粒度韵律编码器包括多层卷积层和多层池化层,从参考音频中得到多维隐特征,作为隐特征韵律信息;所述粗粒度韵律编码器的池化层数量大于...

【专利技术属性】
技术研发人员:刘刚苏江
申请(专利权)人:暗物质北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1