【技术实现步骤摘要】
一种音频生成方法、装置以及电子设备
[0001]本申请涉及语音信号处理领域,尤其涉及一种音频生成方法、装置以及电子设备。
技术介绍
[0002]随着移动通信技术的发展和成熟,人们对通信中语音的质量要求越来越高,为了补全传统窄带通信中窄带语音缺失的高频分量,音频超分辨率技术也应运而生。
[0003]然而,传统的音频超分辨率技术主要应用语音信号高频带和低频带的相关性进行频带扩展,因其技术方法有限,所以扩展效果往往不是很理想,达不到真实宽带信号的效果;只使用卷积神经网络(CNN)的音频超分辨率技术由于只能提取信号的空间特征,不能利用语音信号的时序特性,其算法效果仍旧有限;使用卷积神经网络(CNN)和长短时记忆网络(LSTM)相结合的方法主要使用信号的时域采样点作为特征,由于长短时记忆网络的输入数据是一维的,不适用于空间序列数据,所以该方法不适用于频域特征。但由于窄带语音信号和宽带语音信号的区别主要体现在频带上,所以使用时域采样点作为特征进行训练的网络很难学习到信号的低频带和高频带之间的关系,使得超分辨率音频生成的质量不高。 ...
【技术保护点】
【技术特征摘要】
1.一种音频生成方法,其特征在于,包括:获取待扩展音频信号中各个音频帧的待预测采样信号的第一幅度谱、直流分量幅度谱以及相位谱;将所述第一幅度谱输入至训练后的音频预测模型,输出所述待预测采样信号对应的第二幅度谱,所述音频预测模型是由卷积网络和卷积长短时记忆网络构建的神经网络模型;结合所述直流分量幅度谱、所述第二幅度谱以及所述相位谱,得到目标频谱;根据所述目标频谱,生成目标音频信号。2.根据权利要求1所述的音频生成方法,其特征在于,所述获取待扩展音频信号中各个音频帧的待预测采样信号的第一幅度谱、直流分量幅度谱以及相位谱的步骤,包括:获取待扩展音频信号和目标采样率;对所述待扩展音频信号进行预处理,得到所述待扩展音频信号的各个音频帧;根据所述目标采样率对所述各个音频帧进行重采样处理,得到待预测采样信号;对所述待预测采样信号进行特征提取处理,得到所述待预测采样信号的第一幅度谱、直流分量幅度谱以及相位谱。3.根据权利要求2所述的音频生成方法,其特征在于,所述对所述待预测采样信号进行特征提取处理,得到所述待预测采样信号的第一幅度谱、直流分量幅度谱以及相位谱的步骤,包括:根据预设的时频域转换条件将所述待预测采样信号转换至频域,得到所述待预测采样信号的频谱;根据所述待预测采样信号的频谱,确定所述待预测采样信号的相位谱;对所述待预测采样信号进行幅度谱提取处理,得到所述待预测采样信号的第一幅度谱和直流分量幅度谱。4.根据权利要求3所述的音频生成方法,其特征在于,所述对所述待预测采样信号进行幅度谱提取处理,得到所述待预测采样信号的第一幅度谱和直流分量幅度谱的步骤,包括:对所述待预测采样信号进行滤波处理,得到第一滤波信号;根据所述预设的时频域转换条件将所述第一滤波信号转换到频域,得到所述第一滤波信号的频谱;根据所述第一滤波信号的频谱,确定所述待预测采样信号的第一幅度谱和直流分量幅度谱。5.根据权利要求1所述的音频生成方法,其特征在于,在所述将所述第一幅度谱输入至训练后的音频预测模型,输出所述待预测采样信号对应的第二幅度谱,所述音频预测模型是由卷积网络和卷积长短时记忆网络构建的神经网络模型的步骤之前,还包括:获取训练集和初始音频预测模型,所述初始音频预测模型包...
【专利技术属性】
技术研发人员:李彤,杨张辉,高可攀,
申请(专利权)人:深圳市潮流网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。