音频转换方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:31627025 阅读:17 留言:0更新日期:2021-12-29 19:04
本发明专利技术的实施例提供了一种音频转换方法、装置、电子设备和计算机可读存储介质,涉及数据处理技术领域,方法包括:获得源用户的音频数据,作为待转换音频数据,基于发音单元表征模型对待转换音频数据进行处理,得到待转换音频数据中的瓶颈特征,并基于音色转换模型对瓶颈特征进行处理,得到内容与源用户相同、音色与目标用户相同的目标音频数据,从而提高了音频转换的效率。频转换的效率。频转换的效率。

【技术实现步骤摘要】
音频转换方法、装置、电子设备和计算机可读存储介质


[0001]本专利技术涉及数据处理
,具体而言,涉及一种音频转换方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]现今,在某些场景中,需要通过音频转换将某一用户的音频内容通过另一用户的音色进行播放,经研究发现,现有的音频转换方法需要使用复杂的算法和大量的数据,转换效率有待提高。

技术实现思路

[0003]本专利技术的目的之一包括,例如,提供了一种音频转换方法、装置、电子设备和计算机可读存储介质,以至少部分地提高音频转换效率。
[0004]本专利技术的实施例可以这样实现:
[0005]第一方面,本专利技术提供一种音频转换方法,包括:
[0006]获得源用户的音频数据,作为待转换音频数据;
[0007]基于发音单元表征模型对所述待转换音频数据进行处理,得到所述待转换音频数据中的瓶颈特征;
[0008]基于音色转换模型对所述瓶颈特征进行处理,得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。
[0009]在可选的实施方式中,所述发音单元表征模型包括采样层、特征处理层、解码层和重打分层;其中,所述特征处理层包括多个串联的特征处理单元,每个所述特征处理单元包括Conformer层和Dense层;所述解码层包括CTC解码和Attention解码;
[0010]所述对所述待转换音频数据进行处理,得到所述待转换音频数据中的瓶颈特征的步骤,包括:
[0011]将所述待转换音频数据输入所述采样层,提取出Mel特征;
[0012]将所述Mel特征输入所述特征处理层,得到隐层向量结果;
[0013]将所述隐层向量结果输入所述解码层,进行CTC损失函数处理和注意力机制处理,得到CTC损失函数处理结果和注意力机制处理结果;
[0014]将所述CTC损失函数处理结果和注意力机制处理结果输入所述重打分层进行融合,基于融合结果得到瓶颈特征。
[0015]在可选的实施方式中,在对所述待转换音频数据进行处理之前,所述方法还包括:
[0016]将所述待转换音频数据进行降采样处理,将其采样率处理为目标采样率;
[0017]对目标采样率的待转换音频数据进行降噪处理。
[0018]在可选的实施方式中,所述音色转换模型为采用AED算法的自回归结构;
[0019]当所述源用户为一个时,所述音色转换模型对该源用户的瓶颈特征进行处理,得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据;
[0020]当所述源用户为两个以上时,所述音色转换模型对每个所述源用户的瓶颈特征分别进行处理,针对每个所述源用户,得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据。
[0021]在可选的实施方式中,基于音色转换模型对所述瓶颈特征进行处理,得到内容与所述源用户相同、音色与目标用户相同的目标音频数据的步骤,包括:
[0022]将所述瓶颈特征进行分片处理;
[0023]将其中一片瓶颈特征输入所述音色转换模型进行处理,得到内容与所述源用户相同、音色与目标用户相同的目标音频数据片段之后,获取另一片瓶颈特征输入所述音色转换模型进行处理,得到内容与所述源用户相同、音色与目标用户相同的新的目标音频数据片段,直至完成对每片瓶颈特征的处理。
[0024]在可选的实施方式中,所述音色转换模型包括上采样层、预处理层、卷积处理层、注意力机制层、长短期记忆人工神经网络层和合成层;
[0025]所述对所述瓶颈特征进行处理,得到内容与所述源用户相同、音色与目标用户相同的目标音频数据的步骤,包括:
[0026]将所述瓶颈特征输入所述上采样层,通过上采样扩充为设定音频长度;
[0027]将设定音频长度的瓶颈特征逐帧输入所述预处理层,得到预处理结果,从目标用户对应的参考音频中抽取能够反应所述目标用户音色的参考嵌入信息;
[0028]将所述预处理结果和参考嵌入信息输入所述卷积处理层,将所述卷积处理层的处理结果逐帧输入所述注意力机制层,并将所述注意力机制层的处理结果输入所述长短期记忆人工神经网络层,得到对应的Mel特征;
[0029]将所述Mel特征输入所述合成层,得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。
[0030]在可选的实施方式中,所述预处理层包括全连接层和池化层;所述卷积处理层包括卷积神经网络、归一化网络、高速网络和门控循环单元。
[0031]第二方面,本专利技术实施例提供一种音频转换装置,包括:
[0032]数据获得模块,用于获得源用户的音频数据,作为待转换音频数据;
[0033]数据处理模块,用于基于发音单元表征模型对所述待转换音频数据进行处理,得到所述待转换音频数据中的瓶颈特征;基于音色转换模型对所述瓶颈特征进行处理,得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。
[0034]第三方面,本专利技术提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施方式任一项所述的音频转换方法。
[0035]第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行前述实施方式任一项所述的音频转换方法。
[0036]本专利技术实施例的有益效果包括,例如:通过发音单元表征模型、音色转换模型该种“端到端”的处理方案实现音频转换,提高了转换效率和鲁棒性,降低了转换错误。
Memory)等基本神经网络单元组合而成的神经网络结构。又例如,发音单元表征模型可以包括transformer层。
[0064]又例如,请结合参阅图3,在一种实现方式中,发音单元表征模型可以包括采样层、特征处理层、解码层和重打分层。其中,所述特征处理层包括多个串联的特征处理单元,每个所述特征处理单元包括Conformer层和Dense层。所述解码层包括CTC解码和Attention解码。
[0065]相应地,S120中,对所述待转换音频数据进行处理,得到所述待转换音频数据中的瓶颈特征的步骤可以通过以下方式实现:将所述待转换音频数据输入所述采样层,提取出Mel特征;将所述Mel特征输入所述特征处理层,得到隐层向量结果;将所述隐层向量结果输入所述解码层,进行CTC损失函数处理和注意力机制处理,得到CTC损失函数处理结果和注意力机制处理结果;将所述CTC损失函数处理结果和注意力机制处理结果输入所述重打分层进行融合,基于融合结果得到瓶颈特征。
[0066]特征处理层包括多个串联的特征处理单元,每个特征处理单元包括Conformer层和Dense层,通过对多个特征处理单元的设置,确保了从待转换音频数据中提取的内容的丰富性,进而确保最终提取的瓶颈特征的丰富性和全面性。本实施例中,特征处理单元的数量可以灵活设置,例如,可以为5至10个,如8个等。...

【技术保护点】

【技术特征摘要】
1.一种音频转换方法,其特征在于,包括:获得源用户的音频数据,作为待转换音频数据;基于发音单元表征模型对所述待转换音频数据进行处理,得到所述待转换音频数据中的瓶颈特征;基于音色转换模型对所述瓶颈特征进行处理,得到内容与所述源用户相同、音色与目标用户相同的目标音频数据。2.根据权利要求1所述的音频转换方法,其特征在于,所述发音单元表征模型包括采样层、特征处理层、解码层和重打分层;其中,所述特征处理层包括多个串联的特征处理单元,每个所述特征处理单元包括Conformer层和Dense层;所述解码层包括CTC解码和Attention解码;所述对所述待转换音频数据进行处理,得到所述待转换音频数据中的瓶颈特征的步骤,包括:将所述待转换音频数据输入所述采样层,提取出Mel特征;将所述Mel特征输入所述特征处理层,得到隐层向量结果;将所述隐层向量结果输入所述解码层,进行CTC损失函数处理和注意力机制处理,得到CTC损失函数处理结果和注意力机制处理结果;将所述CTC损失函数处理结果和注意力机制处理结果输入所述重打分层进行融合,基于融合结果得到瓶颈特征。3.根据权利要求1或2所述的音频转换方法,其特征在于,在对所述待转换音频数据进行处理之前,所述方法还包括:将所述待转换音频数据进行降采样处理,将其采样率处理为目标采样率;对目标采样率的待转换音频数据进行降噪处理。4.根据权利要求1所述的音频转换方法,其特征在于,所述音色转换模型为采用AED算法的自回归结构;当所述源用户为一个时,所述音色转换模型对该源用户的瓶颈特征进行处理,得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据;当所述源用户为两个以上时,所述音色转换模型对每个所述源用户的瓶颈特征分别进行处理,针对每个所述源用户,得到内容与该源用户相同、音色与某一目标用户相同的目标音频数据。5.根据权利要求1所述的音频转换方法,其特征在于,基于音色转换模型对所述瓶颈特征进行处理,得到内容与所述源用户相同、音色与目标用户相同的目标音频数据的步骤,包括:将所述瓶颈特征进行分片处理;将其中一片瓶颈特征输入所述音色转换模型...

【专利技术属性】
技术研发人员:刘峰康世胤陀得意游于人刘柏基
申请(专利权)人:广州虎牙科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1