音频处理方法、声码器、装置、设备及存储介质制造方法及图纸

技术编号:30425437 阅读:13 留言:0更新日期:2021-10-24 16:57
本申请提供了一种音频处理方法、声码器、装置、设备及存储介质;方法包括:对待处理文本进行语音特征转换,得到至少一帧声学特征帧;通过帧率网络,从每帧声学特征帧中提取出条件特征;对当前帧进行频带划分与时域降采样,得到包含预设数量个采样点的n个子帧;通过采样预测网络,在第i轮预测过程中,对n个子帧中对应的当前m个相邻采样点同步进行采样值预测,得到m

【技术实现步骤摘要】
音频处理方法、声码器、装置、设备及存储介质


[0001]本申请涉及音视频处理技术,尤其涉及一种音频处理方法、声码器、装置、设备及存储介质。

技术介绍

[0002]随着智能设备(如智能手机、智能音箱等)的快速发展,语音交互技术作为一种自然的交互方式得到越来越多的应用。作为语音交互技术中重要的一环,语音合成技术也取得了长足的进步。语音合成技术通过一定的规则或模型算法将文本转换为对应的音频内容。传统的语音合成技术主要基于拼接方法或统计参数方法。随着深度学习在语音识别领域不断取得突破,深度学习逐渐被引入到语音合成领域。得益于此,基于神经网络的声码器(Neural vocoder)取得了很大的进展。然而,目前的声码器通常需要基于音频特征信号中的多个采样时间点进行多次循环才能完成语音预测,进而完成语音合成,从而导致音频合成的处理速度较慢,降低了音频处理的效率。

技术实现思路

[0003]本申请实施例提供一种音频处理方法、声码器、装置、设备及存储介质,能够提高音频处理的速度与效率。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供一种音频处理方法,包括:
[0006]对待处理文本进行语音特征转换,得到至少一帧声学特征帧;
[0007]通过帧率网络,从所述至少一帧声学特征帧的每帧声学特征帧中,提取出所述每帧声学特征帧对应的条件特征;
[0008]对所述每帧声学特征帧中的当前帧进行频带划分与时域降采样,得到所述当前帧对应的n个子帧;其中,n为大于1的正整数;所述n个子帧的每个子帧包含预设数量个采样点;
[0009]通过采样预测网络,在第i轮预测过程中,对当前m个相邻采样点在所述n个子帧上对应的采样值进行同步预测,得到m
×
n个子预测值,进而得到所述预设数量个采样点中每个采样点对应的n个子预测值;其中,i为大于或等于1的正整数;m为大于或等于2且小于或等于所述预设数量的正整数;
[0010]根据所述每个采样点对应的n个子预测值得到所述当前帧对应的音频预测信号;进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成,得到所述待处理文本对应的目标音频。
[0011]本申请实施例提供一种声码器,包括:
[0012]帧率网络,用于从所述至少一帧声学特征帧的每帧声学特征帧中,提取出所述每帧声学特征帧对应的条件特征;
[0013]时域频域处理模块,用于对所述每帧声学特征帧中的当前帧进行频带划分与时域
降采样,得到所述当前帧对应的n个子帧;其中,n为大于1的正整数;所述n个子帧的每个子帧包含预设数量个采样点;
[0014]采样预测网络,用于在第i轮预测过程中,对当前m个相邻采样点在所述n个子帧上对应的采样值进行同步预测,得到m
×
n个子预测值,进而得到所述预设数量个采样点中每个采样点对应的n个子预测值;其中,i为大于或等于1的正整数;m为大于或等于2且小于或等于所述预设数量的正整数;
[0015]信号合成模块,用于根据所述每个采样点对应的n个子预测值得到所述当前帧对应的音频预测信号;进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成,得到所述待处理文本对应的目标音频。
[0016]本申请实施例提供一种音频处理装置,包括:
[0017]文本语音转换模型,用于待处理文本进行语音特征转换,得到至少一帧声学特征帧;
[0018]帧率网络,用于从所述至少一帧声学特征帧的每帧声学特征帧中,提取出所述每帧声学特征帧对应的条件特征;
[0019]时域频域处理模块,用于对所述每帧声学特征帧中的当前帧进行频带划分与时域降采样,得到所述当前帧对应的n个子帧;其中,n为大于1的正整数;所述n个子帧的每个子帧包含预设数量个采样点;
[0020]采样预测网络,用于在第i轮预测过程中,对当前m个相邻采样点在所述n个子帧上对应的采样值进行同步预测,得到m
×
n个子预测值,进而得到所述预设数量个采样点中每个采样点对应的n个子预测值;其中,i为大于或等于1的正整数;m为大于或等于2且小于或等于所述预设数量的正整数;
[0021]信号合成模块,用于根据所述每个采样点对应的n个子预测值得到所述当前帧对应的音频预测信号;进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成,得到所述待处理文本对应的目标音频。
[0022]上述装置中,当m等于2时,所述采样预测网络中包含独立的2n个全连接层,所述当前两个相邻采样点包括:所述第i轮预测过程中,当前时刻t对应的采样点t与下一时刻t+1对应的采样点t+1,其中,t为大于或等于1的正整数;
[0023]所述采样预测网络,还用于在第i轮预测过程中,基于所述采样点t对应的至少一个t时刻历史采样点,对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测,得到n个t时刻子粗测值;
[0024]当i大于1时,基于第i

1轮预测过程对应的历史预测结果,结合所述条件特征,通过2n个全连接层,同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测,得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值;所述历史预测结果包含第i

1轮预测过程中,相邻两个采样点各自对应的n个残差值与子预测值;
[0025]基于所述采样点t+1对应的至少一个t+1时刻历史采样点,对所述采样点t+1在所述n个子帧上的线性采样值进行线性编码预测,得到n个t+1时刻子粗测值;
[0026]根据所述n个t时刻残差值与所述n个t时刻子粗测值,得到所述采样点t对应的n个t时刻子预测值,并根据所述n个t+1时刻残差值与所述n个t+1时刻子粗测值,得到n个t+1时
刻子预测值;将所述n个t时刻子预测值与所述n个t+1时刻子预测值作为2n个子预测值。
[0027]上述装置中,所述采样预测网络,还用于获取采样点t

1对应的n个t

1时刻子粗测值,以及在所述第i

1轮预测过程中得到的n个t

1时刻残差值、n个t

2时刻残差值、n个t

1时刻子预测值与n个t

2时刻子预测值;对所述n个t时刻子粗测值、所述n个t

1时刻子粗测值、所述n个t

1时刻残差值、所述n个t

2时刻残差值、所述n个t

1时刻子预测值与所述n个t

2时刻预测值进行特征维度过滤,得到降维特征集合;通过所述2n个全连接层中的每个全连接层,结合所述条件特征,基于所述降维特征集合,同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测,分别得到所述n个t时刻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:对待处理文本进行语音特征转换,得到至少一帧声学特征帧;通过帧率网络,从所述至少一帧声学特征帧的每帧声学特征帧中,提取出所述每帧声学特征帧对应的条件特征;对所述每帧声学特征帧中的当前帧进行频带划分与时域降采样,得到所述当前帧对应的n个子帧;其中,n为大于1的正整数;所述n个子帧的每个子帧包含预设数量个采样点;通过采样预测网络,在第i轮预测过程中,对当前m个相邻采样点在所述n个子帧上对应的采样值进行同步预测,得到m
×
n个子预测值,进而得到所述预设数量个采样点中每个采样点对应的n个子预测值;其中,i为大于或等于1的正整数;m为大于或等于2且小于或等于所述预设数量的正整数;根据所述每个采样点对应的n个子预测值得到所述当前帧对应的音频预测信号;进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成,得到所述待处理文本对应的目标音频。2.根据权利要求1所述的方法,其特征在于,当m等于2时,所述采样预测网络中包含独立的2n个全连接层,所述相邻两个采样点包括:所述第i轮预测过程中,当前时刻t对应的采样点t与下一时刻t+1对应的采样点t+1,其中,t为大于或等于1的正整数;所述对当前m个相邻采样点在所述n个子帧上对应的采样值进行同步预测,得到m
×
n个子预测值,包括:在第i轮预测过程中,通过采样预测网络,基于所述采样点t对应的至少一个t时刻历史采样点,对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测,得到n个t时刻子粗测值;当i大于1时,基于第i

1轮预测过程对应的历史预测结果,结合所述条件特征,通过2n个全连接层,同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测,得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值;所述历史预测结果包含第i

1轮预测过程中,相邻两个采样点各自对应的n个残差值与子预测值;基于所述采样点t+1对应的至少一个t+1时刻历史采样点,对所述采样点t+1在所述n个子帧上的线性采样值进行线性编码预测,得到n个t+1时刻子粗测值;根据所述n个t时刻残差值与所述n个t时刻子粗测值,得到所述采样点t对应的n个t时刻子预测值,并根据所述n个t+1时刻残差值与所述n个t+1时刻子粗测值,得到n个t+1时刻子预测值;将所述n个t时刻子预测值与所述n个t+1时刻子预测值作为2n个子预测值。3.根据权利要求2所述的方法,其特征在于,所述基于第i

1轮预测过程对应的历史预测结果,结合所述条件特征,通过2n个全连接层,同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测,得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值,包括:获取采样点t

1对应的n个t

1时刻子粗测值,以及在所述第i

1轮预测过程中得到的n个t

1时刻残差值、n个t

2时刻残差值、n个t

1时刻子预测值与n个t

2时刻子预测值;对所述n个t时刻子粗测值、所述n个t

1时刻子粗测值、所述n个t

1时刻残差值、所述n个t

2时刻残差值、所述n个t

1时刻子预测值与所述n个t

2时刻预测值进行特征维度过滤,
得到降维特征集合;通过所述2n个全连接层中的每个全连接层,结合所述条件特征,基于所述降维特征集合,同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测,分别得到所述n个t时刻残差值与所述n个t+1时刻残差值。4.根据权利要求3所述的方法,其特征在于,所述通过所述2n个全连接层中的每个全连接层,结合所述条件特征,基于所述降维特征集合,同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测,分别得到所述n个t时刻残差值与所述n个t+1时刻残差值,包括:将所述降维特征集合中的n个t

2时刻降维残差值与n个t

2时刻降维预测值确定为t时刻激励值;所述n个t

2时刻降维残差值为所述n个t

2时刻残差值经过特征维度过滤后得到的;所述n个t

2时刻降维预测值为所述n个t

2时刻预测值经过特征维度过滤后得到的;将所述降维特征集合中的n个t

1时刻降维残差值与所述n个t

1时刻降维子预测值确定为t+1时刻激励值;所述n个t

1时刻降维残差值为所述n个t

1时刻残差值经过特征维度过滤后得到的;所述n个t

1时刻降维预测值为所述n个t

1时刻预测值经过特征维度过滤后得到的;在所述2n个全连接层中的n个全连接层中,基于所述条件特征与所述t时刻激励值,采用所述n个全连接层中的每个全连接层,同步根据所述n个t

1时刻降维子粗测值对所述采样点t进行前向残差预测,得到所述n个t时刻残差值;并且,在所述2n个全连接层中的另外n个全连接层中,基于所述条件特征与所述t+1时刻激励值,采用所述另外n个全连接层中的每个全连接层,同步根据所述n个t时刻降维子粗测值对所述采样点t+1进行前向残差预测,得到所述n个t+1时刻残差值。5.根据权利要求3或4所述的方法,其特征在于,所述采样预测网络中包含第一门控循环网络与第二门控循环网络,所述对所述n个t时刻子粗测值、所述n个t

1时刻子粗测值、所述n个t

1时刻残差值、所述n个t

【专利技术属性】
技术研发人员:林诗伦李新辉卢鲤
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1