基于人工智能的音频生成方法、装置、设备及存储介质制造方法及图纸

技术编号:30069714 阅读:26 留言:0更新日期:2021-09-18 08:21
本申请提供了一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质;涉及人工智能技术;方法包括:对文本对应的音素序列进行编码处理,得到音素序列的上下文表征;基于音素序列中的每个音素对应的第一帧隐含状态,确定第一帧隐含状态相对于上下文表征的对齐位置;当对齐位置对应上下文表征中的非末尾位置时,基于上下文表征以及第一帧隐含状态进行解码处理,得到第二帧隐含状态;基于第一帧隐含状态以及第二帧隐含状态进行合成处理,得到文本对应的音频数据。通过本申请,能够提高音频合成的准确性。提高音频合成的准确性。提高音频合成的准确性。

【技术实现步骤摘要】
基于人工智能的音频生成方法、装置、设备及存储介质


[0001]本申请涉及人工智能技术,尤其涉及一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0003]相关技术中对于音频的合成方式比较粗糙,通常是直接对文本数据对应的频谱进行合成,以得到文本数据对应的音频数据,这种合成方式无法实现音频的精准合成,从而影响用户体验正常的音频合成。

技术实现思路

[0004]本申请实施例提供一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质,能够提高音频合成的准确性。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种基于人工智能的音频生成方法,包括:
[0007]对文本对应的音素序列进行编码处理,得到所述音素序列的上下文表征;
[0008]基于所述音素序列中的每个音素对应的第一帧隐含状态,确定所述第一帧隐含状态相对于所述上下文表征的对齐位置;
[0009]当所述对齐位置对应所述上下文表征中的非末尾位置时,基于所述上下文表征以及所述第一帧隐含状态进行解码处理,得到第二帧隐含状态;
[0010]基于所述第一帧隐含状态以及所述第二帧隐含状态进行合成处理,得到所述文本对应的音频数据。
[0011]上述技术方案中,所述对文本对应的音素序列进行编码处理,得到所述音素序列的上下文表征,包括:
[0012]对文本对应的音素序列进行前向编码处理,得到所述音素序列的前向隐向量;
[0013]对所述文本对应的音素序列进行后向编码处理,得到所述音素序列的后向隐向量;
[0014]对所述前向隐向量以及所述后向隐向量进行融合处理,得到所述音素序列的上下文表征。
[0015]上述技术方案中,所述对文本对应的音素序列进行前向编码处理,得到所述音素序列的前向隐向量,包括:
[0016]通过编码器对所述文本对应的音素序列中的各音素依次按照第一方向进行编码
处理,得到所述各音素在所述第一方向的隐向量;
[0017]所述对所述文本对应的音素序列进行后向编码处理,得到所述音素序列的后向隐向量,包括:
[0018]通过所述编码器对所述各音素依次按照第二方向进行编码处理,得到所述各音素在所述第二方向的隐向量;
[0019]所述对所述前向隐向量以及所述后向隐向量进行融合处理,得到所述音素序列的上下文表征,包括:
[0020]对所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述音素序列的上下文表征;
[0021]其中,所述第二方向为所述第一方向的反方向。
[0022]本申请实施例提供一种音频生成装置,包括:
[0023]编码模块,用于对文本对应的音素序列进行编码处理,得到所述音素序列的上下文表征;
[0024]注意力模块,用于基于所述音素序列中的每个音素对应的第一帧隐含状态,确定所述第一帧隐含状态相对于所述上下文表征的对齐位置;
[0025]解码模块,用于当所述对齐位置对应所述上下文表征中的非末尾位置时,基于所述上下文表征以及所述第一帧隐含状态进行解码处理,得到第二帧隐含状态;
[0026]合成模块,用于基于所述第一帧隐含状态以及所述第二帧隐含状态进行合成处理,得到所述文本对应的音频数据。
[0027]上述技术方案中,所述第一帧隐含状态表示第一帧的隐含状态,所述第二帧隐含状态表示第二帧的隐含状态,所述第一帧与所述第二帧为所述音素对应的频谱数据中任意相邻的两帧;
[0028]当将所述第一帧隐含状态记为第t帧隐含状态时,所述注意力模块还用于针对所述音素序列中的每个音素执行以下处理:
[0029]基于所述音素对应的所述第t帧隐含状态,确定所述第t帧隐含状态相对于所述上下文表征的对齐位置;
[0030]所述解码模块还用于当所述第t帧隐含状态相对于所述上下文表征的对齐位置对应所述上下文表征中的非末尾位置时,基于所述上下文表征以及所述第t帧隐含状态进行解码处理,得到第t+1帧隐含状态;
[0031]其中,t为从1开始递增的自然数且取值满足1≤t≤T,T为所述对齐位置对应所述上下文表征中的末尾位置时所述音素序列对应的总帧数,所述总帧数表示所述音素序列中每个音素的隐含状态所对应的频谱数据的帧数。
[0032]上述技术方案中,所述合成模块还用于当所述对齐位置对应所述上下文表征中的末尾位置时,对T帧隐含状态进行拼接处理,得到所述文本对应的隐含状态;
[0033]对所述文本对应的隐含状态进行平滑处理,得到所述文本对应的频谱数据;
[0034]对所述文本对应的频谱数据进行傅里叶变换,得到所述文本对应的音频数据。
[0035]上述技术方案中,所述注意力模块还用于基于所述音素对应的第t帧隐含状态进行高斯预测处理,得到所述第t帧隐含状态对应的第t高斯参数;
[0036]基于所述第t高斯参数确定所述第t帧隐含状态相对于所述上下文表征的对齐位
置。
[0037]上述技术方案中,所述注意力模块还用于基于所述音素对应的第t帧隐含状态进行基于高斯函数的预测处理,得到所述第t帧隐含状态对应的第t高斯方差以及第t高斯均值变化量;
[0038]获取第t

1帧隐含状态对应的第t

1高斯参数;
[0039]将所述第t

1高斯参数包括的第t

1高斯均值与所述第t高斯均值变化量进行加和处理,将得到的加和结果作为所述第t帧隐含状态对应的第t高斯均值;
[0040]将所述第t高斯方差以及所述第t高斯均值的集合作为所述第t帧隐含状态对应的第t高斯参数;
[0041]将所述第t高斯均值作为所述第t帧隐含状态相对于所述上下文表征的对齐位置。
[0042]上述技术方案中,所述注意力模块还用于获取所述音素序列的上下文表征的内容文本长度;
[0043]当所述第t高斯均值大于所述内容文本长度时,确定所述对齐位置对应所述上下文表征中的末尾位置;
[0044]当所述第t高斯均值小于或者等于所述内容文本长度时,确定所述对齐位置对应所述上下文表征中的非末尾位置。
[0045]上述技术方案中,所述解码模块还用于获取所述第t帧隐含状态对应的注意力权重;
[0046]基于所述注意力权重对所述上下文表征进行加权处理,得到所述上下文表征对应的上下文向量;
[0047]基于所述上下文向量以及所述第t帧隐含状态进行状态预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的音频生成方法,其特征在于,所述方法包括:对文本对应的音素序列进行编码处理,得到所述音素序列的上下文表征;基于所述音素序列中的每个音素对应的第一帧隐含状态,确定所述第一帧隐含状态相对于所述上下文表征的对齐位置;当所述对齐位置对应所述上下文表征中的非末尾位置时,基于所述上下文表征以及所述第一帧隐含状态进行解码处理,得到第二帧隐含状态;基于所述第一帧隐含状态以及所述第二帧隐含状态进行合成处理,得到所述文本对应的音频数据。2.根据权利要求1所述的方法,其特征在于,所述第一帧隐含状态表示第一帧的隐含状态,所述第二帧隐含状态表示第二帧的隐含状态,所述第一帧与所述第二帧为所述音素对应的频谱数据中任意相邻的两帧;当将所述第一帧隐含状态记为第t帧隐含状态时,所述基于所述音素序列中的每个音素对应的第一帧隐含状态,确定所述第一帧隐含状态相对于所述上下文表征的对齐位置,包括:针对所述音素序列中的每个音素执行以下处理:基于所述音素对应的所述第t帧隐含状态,确定所述第t帧隐含状态相对于所述上下文表征的对齐位置;所述当所述对齐位置对应所述上下文表征中的非末尾位置时,基于所述上下文表征以及所述第一帧隐含状态进行解码处理,得到第二帧隐含状态,包括:当所述第t帧隐含状态相对于所述上下文表征的对齐位置对应所述上下文表征中的非末尾位置时,基于所述上下文表征以及所述第t帧隐含状态进行解码处理,得到第t+1帧隐含状态;其中,t为从1开始递增的自然数且取值满足1≤t≤T,T为所述对齐位置对应所述上下文表征中的末尾位置时所述音素序列对应的总帧数,所述总帧数表示所述音素序列中每个音素的隐含状态所对应的频谱数据的帧数。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一帧隐含状态以及所述第二帧隐含状态进行合成处理,得到所述文本对应的音频数据,包括:当所述对齐位置对应所述上下文表征中的末尾位置时,对T帧隐含状态进行拼接处理,得到所述文本对应的隐含状态;对所述文本对应的隐含状态进行平滑处理,得到所述文本对应的频谱数据;对所述文本对应的频谱数据进行傅里叶变换,得到所述文本对应的音频数据。4.根据权利要求2所述的方法,其特征在于,所述基于所述音素对应的第t帧隐含状态,确定所述第t帧隐含状态相对于所述上下文表征的对齐位置,包括:基于所述音素对应的第t帧隐含状态进行高斯预测处理,得到所述第t帧隐含状态对应的第t高斯参数;基于所述第t高斯参数确定所述第t帧隐含状态相对于所述上下文表征的对齐位置。5.根据权利要求4所述的方法,其特征在于,所述基于所述音素对应的第t帧隐含状态进行高斯预测处理,得到所述第t帧隐含状态对应的第t高斯参数,包括:基于所述音素对应的第t帧隐含状态进行基于高斯函数的预测处理,得到所述第t帧隐
含状态对应的第t高斯方差以及第t高斯均值变化量;获取第t

1帧隐含状态对应的第t

1高斯参数;将所述第t

1高斯参数包括的第t

1高斯均值与所述第t高斯均值变化量进行加和处理,将得到的加和结果作为所述第t帧隐含状态对应的第t高斯均值;将所述第t高斯方差以及所述第t高斯均值的集合作为所述第t帧隐含状态对应的第t高斯参数;所述基于所述第t高斯参数确定所述第t帧隐含状态相对于所述上下文表征的对齐位置,包括:将所述第t高斯均值作为所述第t帧隐含状态相对于所述上下文表征的对齐位置。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取所述音素序列的上下文表征的内容文本长度;当所述第t高斯均值大于所述内容文本长度时,确定所述对齐位置对应所述上下文表征中的末尾位置;当所述第t高斯均值小于或者等于所述内容文本长度时,确定所述对齐位置对应所述上下文表征中的非末尾位置。7.根据权利要求2所述的方法,其特征在于,所述基于所述上下文表征以及所述第t帧隐含状态进行解码处理,得到第t+1帧隐含状态,包括:获取所述第t帧隐含状态对应的注意力权重;基于所述注意力权重对所述上下文表征进行加权处理,得到所述上下文表征对应的上下文向量;基于所述上下文向量以及所述第t帧隐...

【专利技术属性】
技术研发人员:张泽旺田乔
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1