语音转换方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36185633 阅读：33 留言：0更新日期：2022-12-31 20:48

本公开提供了一种语音转换方法、装置、电子设备及存储介质。本公开实施例的语音转换方法包括：获取当前源语音块；提取当前源语音块的语音后验概率特征；利用当前源语音块的语音后验概率特征和已获得的先前源语音块的历史记忆信息生成对应当前源语音块的声学特征；将对应当前源语音块的声学特征合成为目标语音块；其中，目标语音块具有目标发音人的音色特征，源语音块的说话人为源发音人。本公开能够实现实时地语音转换，成本低，执行速度快，而且支持多对一的语音转换。支持多对一的语音转换。支持多对一的语音转换。

全部详细技术资料下载

【技术实现步骤摘要】
语音转换方法、装置、电子设备及存储介质

[0001]本公开涉及一种语音转换方法、装置、电子设备及存储介质。

技术介绍

[0002]目前，语音转换技术通常需要基于平行语料训练语音转换模型，再利用该语音转换模型实现源发音人到目标发音人的语音转换。这里的平行语料需要源发音人的语料和目标发音人的语料一一对应，也即，要求源发音人和目标发音人必须朗读相同的文本，这极大地制约了语音转换技术在各种场景、各类人群中的应用，无法实现多个源发音人到同一目标发音人的语音转换，同时还实现成本也比较高。
[0003]此外，目前的语音转换技术仅支持语音的整体转换，也即，对源语音整体进行转换、目标语音整体输出。这带来极大的延时，使得语音转换技术很难应用到诸如直播、实时交互等即时场景中。
[0004]因此，需要一种支持流式语音转换且实现成本较低的语音转换方案。

技术实现思路

[0005]为了解决上述技术问题中的至少一个，本公开提供了一种语音转换方法、装置、电子设备及存储介质。
[0006]本公开的第一方面提供了一种语音

【技术保护点】

【技术特征摘要】
1.一种语音转换方法，其特征在于，包括：获取当前源语音块；提取所述当前源语音块的语音后验概率特征；利用所述当前源语音块的语音后验概率特征和已获得的先前源语音块的历史记忆信息生成对应所述当前源语音块的声学特征；将对应所述当前源语音块的声学特征合成为目标语音块；其中，所述目标语音块具有目标发音人的音色特征，所述源语音块的说话人为源发音人。2.根据权利要求1所述的语音转换方法，其特征在于，所述获取当前源语音块，包括：通过WebSocket连接接收当前源语音块。3.根据权利要求1所述的语音转换方法，其特征在于，所述利用所述当前源语音块的语音后验概率特征和已获得的先前源语音块的历史记忆信息生成对应所述当前源语音块的声学特征，包括：提取所述语音后验概率特征的深层特征；对所述语音后验概率特征的深层特征执行预处理，获得第一中间特征；利用所述第一中间特征和包含先前源语音块的历史记忆信息的隐状态特征获得对应当前源语音块的第二中间特征和当前源语音块的状态信息，并将当前源语音块的状态信息更新到所述先前源语音块的历史记忆信息中；将对应当前源语音块的第二中间特征执行全连接层处理，获得对应当前源语音块的声学特征。4.根据权利要求1所述的语音转换方法，其特征在于，不同的源语音块对应的源发音人不同，所述源语音块为所述先前源语音块中的任一语音块或任一当前源语音块。5.根据权利要求1所述的语音转换方法，其特征在于，所述先前源语音块的历史记忆信息包括前N个语音块的状态信息，N为大于或等于1的整数。6.根据权利要求1或3所述的语音转换方法，其特征在于，所述利用所述当前源语音块的语音后验概...

【专利技术属性】
技术研发人员：殷昊，江明奇，丁辉，陈云琳，叶顺平，
申请(专利权)人：北京羽扇智信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人