【技术实现步骤摘要】
一种多对多映射的流式语音转换系统及方法
[0001]本专利技术属于语音信息处理
,尤其涉及一种多对多映射的流式语音转换系统及方法。
技术介绍
[0002]伴随着语音消息、短视频、网络直播、元宇宙虚拟形象等概念的社会化普及,声音成为了在网络社交媒体中传播信息的重要媒介,个人语音身份隐匿和防护也受到了越来越多的重视,人们需要创建与个人真实身份脱敏的个性化虚拟声音。
[0003]区别于文本转语音(Text
‑
to
‑
Speech,TTS)技术,语音转换技术直接编辑人声,在原语音的基础上保留语义信息,修改音色、韵律、情感等信息,具有更加丰富的可变性。
[0004]语音转换的完整就成包括语音特征提取、特征映射、语音重建三个部分,重点关注特征映射部分,即将原始语音中的语音特征映射到对应语义信息下的目标说话人的特征,从而完成转换。语音转换研究早期常利用基于统计模型的方法实现特征映射,主要方法包括高斯混合模型(Gaussian Mixture Model,GMM)、非负矩阵分解(No ...
【技术保护点】
【技术特征摘要】
1.一种多对多映射的流式语音转换系统,其特征在于,包括流式语音采集模块,声学特征提取模块,音色特征提取模块,基于StarGANv2的声学特征映射模块,基于神经网络Vocoder的语音重建模块,以及流式输出模块;所述流式语音采集模块,用于持续采集目标的原始语音流数据,并按要求对原始语音流数据进行切片,获得对应的切片语音流数据;所述声学特征提取模块,用于提取所述切片语音流数据中的声音特征,并根据所述声音特征进行高斯标准化,获得对应的标准对数梅尔频谱;所述音色特征提取模块包括基于图神经网络的音色编辑器,所述音色编辑器用于生成目标的音色向量,所述音色编辑器的结构为4层级联的ResBlock;所述声学特征映射模块,用于基于声学特征提取模块输出的标准对数频谱,将目标的音色向量转换为音色对数梅尔频谱;所述语音重建模块,用于将所述声学特征映射模块输出的音色对数梅尔频谱,还原成音频切片;所述流式输出模块,用于将所述语音重建模块转换获得的音频切片进行平滑拼接,并通过播放设备进行语音播放。2.根据要求1所述的多对多映射的流式语音转换系统,其特征在于,所述声学特征映射模块包括CNN编码器和CNN解码器,所述CNN编码器为卷积
‑
全连接网络,包括一层A4层共享的ResBlock以及一层非共享的每位目标说话人独占的全连接层,所述CNN解码器包含5层AdaIN
‑
ResBlock,目标说话人音色向量输入CNN解码器的每一层AdaIN层。3.根据权利要求1所述的多对多映射的流式语音转换系统,其特征在于,所述播放设备包括扬声器和耳机。4.根据权利要求1所述的多对多映射的流式语音转换系统,其特征在于,所述音色编辑器用于生成目标的音色向量包括提取目标语音音频中的音色特征向量和根据目标身份标签生成的音色向量。5.根据权利要求1所述的多对多映射的流式语音转换系统,其特征在于,对所述的声学特征映射模块进行训练时,将所有的卷积层替换为因果卷积,削弱卷积操作对未来数据的依赖,优化对短输入的转换效果。6.根据权利要求1所述的多对多映射的流失语音转换系统,其特征在于,对所述地声学特征映射模块进行训练时,引入拼接损失函数,优化模型对连续短输入的转换效果,具体损失函数表达如下式所示:式中,G(
·
)表示声学特征映射函数,m表示原声学特征,T表示将m切分成多个语音特征切片的长度,n表示输入的声学特征的总长度。7.一种多对多映射的流式语音转换方法,通过如权利要求1~6任一项所述的流式语音转换系统执行,其特征在于,所述流式语音转换方法的具体步...
【专利技术属性】
技术研发人员:卢立,陈钱牛,顾哲涵,巴钟杰,林峰,任奎,
申请(专利权)人:浙江大学杭州国际科创中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。