音频转换方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：31627025 阅读：17 留言：0更新日期：2021-12-29 19:04

本发明专利技术的实施例提供了一种音频转换方法、装置、电子设备和计算机可读存储介质，涉及数据处理技术领域，方法包括：获得源用户的音频数据，作为待转换音频数据，基于发音单元表征模型对待转换音频数据进行处理，得到待转换音频数据中的瓶颈特征，并基于音色转换模型对瓶颈特征进行处理，得到内容与源用户相同、音色与目标用户相同的目标音频数据，从而提高了音频转换的效率。频转换的效率。频转换的效率。

全部详细技术资料下载

【技术实现步骤摘要】
音频转换方法、装置、电子设备和计算机可读存储介质

[0001]本专利技术涉及数据处理
，具体而言，涉及一种音频转换方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]现今，在某些场景中，需要通过音频转换将某一用户的音频内容通过另一用户的音色进行播放，经研究发现，现有的音频转换方法需要使用复杂的算法和大量的数据，转换效率有待提高。

技术实现思路

[0003]本专利技术的目的之一包括，例如，提供了一种音频转换方法、装置、电子设备和计算机可读存储介质，以至少部分地提高音频转换效率。
[0004]本专利技术的实施例可以这样实现：
[0005]第一方面，本专利技术提供一种音频转换方法，包括：
[0006]获得源用户的音频数据，作为待转换音频数据；
[0007]基于发音单元表征模型对所述待转换音频数据进行处理，得到所述待转换音频数据中的瓶颈特征；
[0008]基于音色转换模型对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。
[0009]在可选的实施方式中，所述发音单元表征模型包括采样层、特征处理层、解码层和重打分层；其中，所述特征处理层包括多个串联的特征处理单元，每个所述特征处理单元包括Conformer层和Dense层；所述解码层包括CTC解码和Attention解码；
[0010]所述对所述待转换音频数据进行处理，得到所述待转换音频数据中的瓶颈特征的步骤，包括：
[0011]将所述待转换音频

【技术保护点】

【技术特征摘要】
1.一种音频转换方法，其特征在于，包括：获得源用户的音频数据，作为待转换音频数据；基于发音单元表征模型对所述待转换音频数据进行处理，得到所述待转换音频数据中的瓶颈特征；基于音色转换模型对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。2.根据权利要求1所述的音频转换方法，其特征在于，所述发音单元表征模型包括采样层、特征处理层、解码层和重打分层；其中，所述特征处理层包括多个串联的特征处理单元，每个所述特征处理单元包括Conformer层和Dense层；所述解码层包括CTC解码和Attention解码；所述对所述待转换音频数据进行处理，得到所述待转换音频数据中的瓶颈特征的步骤，包括：将所述待转换音频数据输入所述采样层，提取出Mel特征；将所述Mel特征输入所述特征处理层，得到隐层向量结果；将所述隐层向量结果输入所述解码层，进行CTC损失函数处理和注意力机制处理，得到CTC损失函数处理结果和注意力机制处理结果；将所述CTC损失函数处理结果和注意力机制处理结果输入所述重打分层进行融合，基于融合结果得到瓶颈特征。3.根据权利要求1或2所述的音频转换方法，其特征在于，在对所述待转换音频数据进行处理之前，所述方法还包括：将所述待转换音频数据进行降采样处理，将其采样率处理为目标采样率；对目标采样率的待转换音频数据进行降噪处理。4.根据权利要求1所述的音频转换方法，其特征在于，所述音色转换模型为采用AED算法的自回归结构；当所述源用户为一个时，所述音色转换模型对该源用户的瓶颈特征进行处理，得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据；当所述源用户为两个以上时，所述音色转换模型对每个所述源用户的瓶颈特征分别进行处理，针对每个所述源用户，得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据。5.根据权利要求1所述的音频转换方法，其特征在于，基于音色转换模型对所述瓶颈特征进行处理，得到内容与所述源用户相同、音色与目标用户相同的目标音频数据的步骤，包括：将所述瓶颈特征进行分片处理；将其中一片瓶颈特征输入所述音色转换模型...

【专利技术属性】
技术研发人员：刘峰，康世胤，陀得意，游于人，刘柏基，
申请(专利权)人：广州虎牙科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人