音频信号处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37533938 阅读:10 留言:0更新日期:2023-05-12 16:01
本申请公开了一种音频信号处理方法,该方法包括:获取原始音频流及对原始音频流的预定参数,预定参数包括变音调参数及变音色参数;将原始音频流按照预定采样率进行采样,得到一系列离散采样点,并对采样点进行分帧处理,得到多个第一语音帧;确定每帧第一语音帧的基频,并根据变音调参数,对每帧第一语音帧的基频进行移动;将移动后的每帧第一语音帧进行拼接后得到输入音频流;将输入音频流划分为多帧相同长度的第二语音帧,对每帧第二语音帧的谱包络进行变换;将经过谱包络进行变换后的每帧第二语音帧进行拼接后得到输出音频流,并根据变音色参数对输出音频流进行重采样,得到目标音频流。音频流。音频流。

【技术实现步骤摘要】
音频信号处理方法、装置、计算机设备及存储介质


[0001]本申请涉及音频处理
,尤其涉及一种音频信号处理方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]在虚拟主播,元宇宙等应用场景下,用户会有利用变声器来美化声音,掩饰身份的需求。当前市面上变声器算法主要有信号处理算法和深度学习算法两大类,前作计算速度快,延时低,参数可调,但往往音质不够理想,听感上存在失真;后者听感贴近自然人声,但是存在不能实时处理音频信号或者延时较高,同时输出语音信号的音色也往往是固定的。

技术实现思路

[0003]本申请的主要目的在于提出一种音频信号处理方法、装置、计算机设备及计算机可读存储介质,旨在解决如何对人声进行实时可调节的音频信号处理,且保障输出声音听感较优的问题。
[0004]为实现上述目的,本申请实施例提供了一种音频信号处理方法,所述方法包括:
[0005]获取原始音频流及对所述原始音频流的预定参数,所述预定参数包括变音调参数及变音色参数;
[0006]将所述原始音频流按照预定采样率进行采样,得到一系列离散采样点,并对所述采样点进行分帧处理,得到多个第一语音帧;
[0007]确定每帧所述第一语音帧的基频,并根据所述变音调参数,对每帧所述第一语音帧的所述基频进行移动;
[0008]将移动后的每帧所述第一语音帧进行叠加拼接后得到输入音频流;
[0009]将所述输入音频流划分为多帧相同长度的第二语音帧,对每帧所述第二语音帧的谱包络进行变换,其中,相邻的两帧第二语音帧具有重叠部分;
[0010]将经过谱包络进行变换后的每帧所述第二语音帧进行拼接后得到输出音频流,并根据所述变音色参数对所述输出音频流进行重采样,得到目标音频流。
[0011]可选地,根据所述变音调参数,对每帧所述第一语音帧的所述基频进行移动包括:
[0012]根据所述变音调参数,通过实时基音同步叠加算法对每个所述输入语音帧的所述基频进行移动。
[0013]可选地,所述根据所述变音调参数,通过实时基音同步叠加算法对每帧所述第一语音帧的所述基频进行移动包括:
[0014]获取每帧所述第一语音帧的所述基频;
[0015]根据所述基频对应的周期,分解每帧所述第一语音帧,得到多个基音周期片段;
[0016]利用窗函数从每帧所述基音周期片段中提取语音片段;
[0017]根据所述变音调参数复制和移动所述语音片段,得到处理后的语音片段,并对提取到的语音片段与处理后的语音片段进行叠加处理,得到移动后的每帧所述第一语音帧。
[0018]可选地,所述根据所述基频对应的周期,分解所述第一语音帧,得到多个基音周期片段包括:
[0019]根据所述基频对应的周期,识别出每帧周期中的最大值,以当前最大值为中心,前后两个相邻的最大值为边界,构成一个所述基音周期片段。
[0020]可选地,所述根据所述变音调参数复制和移动所述语音片段,得到处理后的语音片段,并对提取到的语音片段与处理后的语音片段进行叠加处理,得到移动后的每帧所述第一语音帧包括:
[0021]将所述基频转换为音阶;
[0022]以所述变音调参数作为离散化处理的颗粒度,对所述音阶进行离散化处理,得到离散化后的音阶;
[0023]将离散化后的音阶转换回对应的频率值,根据所述频率值和所述基频得到基频移动倍率;
[0024]根据所述基频移动倍率复制和移动所述语音片段,得到处理后的语音片段,并对提取到的语音片段与处理后的语音片段进行叠加处理,得到移动后的每帧所述第一语音帧。
[0025]可选地,所述对每帧所述第二语音帧的谱包络进行变换包括:
[0026]通过相位声码器算法对每帧所述第二语音帧的谱包络进行变换。
[0027]可选地,所述通过相位声码器算法对每帧所述第二语音帧的谱包络进行变换包括:
[0028]根据所述变音色参数对每帧所述第二语音帧在时间轴上的位置进行平移;
[0029]对平移后的每帧所述第二语音帧进行相位重构,并将相位重构后的每帧所述第二语音帧作为经过所述谱包络进行变换后的每帧所述第二语音帧。
[0030]可选地,所述对平移后的每帧所述第二语音帧进行相位重构包括:
[0031]获取每帧所述第二语音帧;
[0032]通过短时傅立叶变换分别计算第m帧所述第二语音帧及第m+1帧所述第二语音帧的频谱,并根据所述频谱确定第m帧所述第二语音帧及第m+1帧所述第二语音帧的瞬时频率及相位,m为大于或者等于1的整数;
[0033]根据第m帧所述第二语音帧的瞬时频率及相位、每帧所述第二语音帧移动前后的时间间隔计算出第m+1帧所述第二语音帧在进行平移后的相位;
[0034]将计算出的相位替换第m+1帧所述第二语音帧的频谱的相位;
[0035]通过逆快速傅里叶变换将经过相位替换后的第m+1帧所述第二语音帧的频谱转换为时域信号,并将所述时域信号作为经过所述谱包络进行变换后的第m+1帧所述第二语音帧。
[0036]可选地,所述根据所述变音色参数对每帧所述第二语音帧在时间轴上的位置进行平移包括:
[0037]获取相邻的两帧第二语音帧的重叠部分所包含的离散采样点的第一数量;
[0038]根据所述变音色参数及所述第一数量确定平移后的相邻的两帧第二语音帧的重叠部分所包含的离散采样点的第二数量;
[0039]根据所述第二数量对每帧所述第二语音帧在时间轴上的位置进行平移。
[0040]此外,为实现上述目的,本申请实施例还提供一种音频信号处理装置,所述装置包括:
[0041]获取模块,用于获取原始音频流及对所述原始音频流的预定参数,所述预定参数包括变音调参数及变音色参数;
[0042]分帧模块,用于将所述原始音频流按照预定采样率进行采样,得到一系列离散采样点,并对所述采样点进行分帧处理,得到多个第一语音帧;
[0043]移动模块,用于确定每帧所述第一语音帧的基频,并根据所述变音调参数,对每帧所述第一语音帧的所述基频进行移动;
[0044]拼接模块,用于将移动后的每帧所述第一语音帧进行拼接后得到输入音频流;
[0045]变换模块,用于将所述输入音频流划分为多帧相同长度的第二语音帧,对每帧所述第二语音帧的谱包络进行变换,其中,相邻的两帧第二语音帧具有重叠部分;
[0046]重采样模块,用于将经过谱包络进行变换后的每帧所述第二语音帧进行叠加拼接后得到输出音频流,并根据所述变音色参数对所述输出音频流进行重采样,得到目标音频流。
[0047]为实现上述目的,本申请实施例还提供一种计算机设备,所述计算机设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频信号处理程序,所述音频信号处理程序被所述处理器执行时实现如上述的音频信号处理方法。
[0048]为实现上述目的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频信号处理方法,其特征在于,所述方法包括:获取原始音频流及对所述原始音频流的预定参数,所述预定参数包括变音调参数及变音色参数;将所述原始音频流按照预定采样率进行采样,得到一系列离散采样点,并对所述采样点进行分帧处理,得到多个第一语音帧;确定每帧所述第一语音帧的基频,并根据所述变音调参数,对每帧所述第一语音帧的所述基频进行移动;将移动后的每帧所述第一语音帧进行叠加拼接后得到输入音频流;将所述输入音频流划分为多帧相同长度的第二语音帧,对每帧所述第二语音帧的谱包络进行变换,其中,相邻的两帧第二语音帧具有重叠部分;将经过谱包络进行变换后的每帧所述第二语音帧进行拼接后得到输出音频流,并根据所述变音色参数对所述输出音频流进行重采样,得到目标音频流。2.根据权利要求1所述的音频信号处理方法,其特征在于,根据所述变音调参数,对每帧所述第一语音帧的所述基频进行移动包括:根据所述变音调参数,通过实时基音同步叠加算法对每个所述输入语音帧的所述基频进行移动。3.根据权利要求2所述的音频信号处理方法,其特征在于,所述根据所述变音调参数,通过实时基音同步叠加算法对每帧所述第一语音帧的所述基频进行移动包括:获取每帧所述第一语音帧的所述基频;根据所述基频对应的周期,分解每帧所述第一语音帧,得到多个基音周期片段;利用窗函数从每帧所述基音周期片段中提取语音片段;根据所述变音调参数复制和移动所述语音片段,得到处理后的语音片段,并对提取到的语音片段与处理后的语音片段进行叠加处理,得到移动后的每帧所述第一语音帧。4.根据权利要求3所述的音频信号处理方法,其特征在于,所述根据所述基频对应的周期,分解所述第一语音帧,得到多个基音周期片段包括:根据所述基频对应的周期,识别出每帧周期中的最大值,以当前最大值为中心,前后两个相邻的最大值为边界,构成一个所述基音周期片段。5.根据权利要求3所述的音频信号处理方法,其特征在于,所述根据所述变音调参数复制和移动所述语音片段,得到处理后的语音片段,并对提取到的语音片段与处理后的语音片段进行叠加处理,得到移动后的每帧所述第一语音帧包括:将所述基频转换为音阶;以所述变音调参数作为离散化处理的颗粒度,对所述音阶进行离散化处理,得到离散化后的音阶;将离散化后的音阶转换回对应的频率值,根据所述频率值和所述基频得到基频移动倍率;根据所述基频移动倍率复制和移动所述语音片段,得到处理后的语音片段,并对提取到的语音片段与处理后的语音片段进行叠加处理,得到移动后的每帧所述第一语音帧。6.根据权利要求1至5任一项所述的音频信号处理方法,其特征在于,所述对每帧所述第二语音帧的谱包络进行变换包括:
通过相位声码器算法对每帧所述第二语音帧的谱包络进行变换。7.根据权利要求6任一项所述的音频信号处理方法,其特征在于,所述通过相位声码器算法对每帧所述第二语音帧的谱...

【专利技术属性】
技术研发人员:吴超凡
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1