一种基于IN和MI的语音转换方法、系统、终端及存储介质技术方案

技术编号:34400945 阅读:63 留言:0更新日期:2022-08-03 21:40
本发明专利技术公开了一种基于I N和M I的语音转换方法、系统、终端及存储介质。所述方法包括:获取源语音数据的梅尔频谱;将所述源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,所述语音转换模型利用I N算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,并利用M I算法衡量所述文本信息嵌入和说话人信息嵌入的相关程度;基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据。本发明专利技术能够进一步加强语音特征和说话人特征的特征解耦功能,实现更好的语音转换效果,能够更好的胜任动画短视频配音等个性化语音合成任务,扩展了语音转换模型的应用场景。景。景。

【技术实现步骤摘要】
一种基于IN和MI的语音转换方法、系统、终端及存储介质


[0001]本专利技术涉及智能语音
,特别是涉及一种基于IN和MI的语音转换方法、系统、终端及存储介质。

技术介绍

[0002]语音转换技术是指将源说话人的身份信息转换为目标说话人的身份信息,同时保持语音内容不变,在医疗服务、保密通信及生活娱乐的方面有着非常重要的应用。在现实生活中,语音转换可以在很多领域发挥出很强的应用价值,例如语音导航,根据驾驶员个人喜好将导航语音转换为其喜爱的明星声音,实现符合用户喜欢的个性化语音生成。目前,语音转换领域较为流行的方法包括基于IN(instance normalization,实例化归一)算法或GAN,现有方法的语音转换效果都有待进一步提升。
[0003]随着自制短视频的发展,目前,很多自媒体人具有较强的视频创作灵感,可以创作出很多趣味性较强的动画短视频,然而由于资金短缺、人手不足等原因,自媒体人很难雇请专业的配音演员为自制的动画短视频配音,只能采用无声动画或者机器合成音等为动画短视频配音,无法产生多样的个性化定制语音,使得视频的最终效果本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于IN和MI的语音转换方法,其特征在于,包括:获取源语音数据的梅尔频谱;将所述源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,所述语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,并利用MI算法衡量所述文本信息嵌入和说话人信息嵌入的相关程度;基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据。2.根据权利要求1所述的基于IN和MI的语音转换方法,其特征在于,所述获取源语音数据的梅尔频谱包括:采用短时傅里叶变换算法对所述源语音数据进行转换,获取源语音数据的梅尔频谱。3.根据权利要求2所述的基于IN和MI的语音转换方法,其特征在于,所述采用短时傅里叶变换算法对所述源语音数据进行转换,获取源语音数据的梅尔频谱包括:确定源语音数据X、窗函数类型、窗长WinLen、重叠点数OverLap、采样频率及傅里叶点数;计算窗滑动次数以及信号长度nx,并根据信号长度nx、窗长WinLen以及窗口之间的重叠点数OverLap计算出需要窗口滑动的次数n;确定每一列的值,得到一个列数为n、行数为WinLen的矩阵;将转换为列向量的窗函数扩展为n列的矩阵w,对矩阵w进行点乘,并对点乘结果进行快速傅里叶变换,得到时频矩阵;根据所述时频矩阵进行梅尔频率转换,并输出梅尔频谱;其中,所述梅尔频率转换公式为:B(f)=1125ln(1+f/700)其中f为频率,B为梅尔频率。4.根据权利要求1所述的基于IN和MI的语音转换方法,其特征在于,所述基于IN和MI的语音转换模型包括第一encoder、IN模块、第二encoder、decoder和分类器;所述第一encoder用于从源语音数据的梅尔频谱中提取出包含且仅包含内容信息的内容向量;所述IN模块用于从梅尔频谱中过滤掉音色信息,得到与说话人无关的内容向量;所述第二encoder用于提取与说话人有关的说话人信息嵌入;所述decoder用于根据内容向量和说话人信息嵌入学习生成目标说话人的梅尔频谱;在所述分类器和第一encoder之间还包括梯度反转层,所述梯度反转层用于在反向传播到该层时使得梯度转为负值,从而使得所述第一encoder和分类器的优化目标完全相反。5.根据权利要求...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1