一种音频生成方法、装置以及电子设备制造方法及图纸

技术编号：34176933 阅读：59 留言：0更新日期：2022-07-17 12:09

本申请提供一种音频生成方法、装置以及电子设备；该方法在获取待扩展音频信号中各个音频帧的待预测采样信号的第一幅度谱、直流分量幅度谱以及相位谱后，将第一幅度谱输入至训练后的音频预测模型得到待预测采样信号对应的第二幅度谱，其中，音频预测模型是由卷积网络和卷积长短时记忆网络构建的神经网络模型，然后结合直流分量幅度谱、第二幅度谱以及相位谱得到目标频谱，最后根据目标频谱生成目标音频信号。本申请通过训练后的音频预测模型基于待扩展音频信号的频谱特征预测目标音频信号的频谱特征，弥补了当前方法不能适用于频域特征的缺陷，提高了超分辨率音频生成的质量。提高了超分辨率音频生成的质量。提高了超分辨率音频生成的质量。

An audio generation method, device and electronic device

全部详细技术资料下载

【技术实现步骤摘要】
一种音频生成方法、装置以及电子设备

[0001]本申请涉及语音信号处理领域，尤其涉及一种音频生成方法、装置以及电子设备。

技术介绍

[0002]随着移动通信技术的发展和成熟，人们对通信中语音的质量要求越来越高，为了补全传统窄带通信中窄带语音缺失的高频分量，音频超分辨率技术也应运而生。
[0003]然而，传统的音频超分辨率技术主要应用语音信号高频带和低频带的相关性进行频带扩展，因其技术方法有限，所以扩展效果往往不是很理想，达不到真实宽带信号的效果；只使用卷积神经网络(CNN)的音频超分辨率技术由于只能提取信号的空间特征，不能利用语音信号的时序特性，其算法效果仍旧有限；使用卷积神经网络(CNN)和长短时记忆网络(LSTM)相结合的方法主要使用信号的时域采样点作为特征，由于长短时记忆网络的输入数据是一维的，不适用于空间序列数据，所以该方法不适用于频域特征。但由于窄带语音信号和宽带语音信号的区别主要体现在频带上，所以使用时域采样点作为特征进行训练的网络很难学习到信号的低频带和高频带之间的关系，使得超分辨率音频生成的质量不高。
[0004本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频生成方法，其特征在于，包括：获取待扩展音频信号中各个音频帧的待预测采样信号的第一幅度谱、直流分量幅度谱以及相位谱；将所述第一幅度谱输入至训练后的音频预测模型，输出所述待预测采样信号对应的第二幅度谱，所述音频预测模型是由卷积网络和卷积长短时记忆网络构建的神经网络模型；结合所述直流分量幅度谱、所述第二幅度谱以及所述相位谱，得到目标频谱；根据所述目标频谱，生成目标音频信号。2.根据权利要求1所述的音频生成方法，其特征在于，所述获取待扩展音频信号中各个音频帧的待预测采样信号的第一幅度谱、直流分量幅度谱以及相位谱的步骤，包括：获取待扩展音频信号和目标采样率；对所述待扩展音频信号进行预处理，得到所述待扩展音频信号的各个音频帧；根据所述目标采样率对所述各个音频帧进行重采样处理，得到待预测采样信号；对所述待预测采样信号进行特征提取处理，得到所述待预测采样信号的第一幅度谱、直流分量幅度谱以及相位谱。3.根据权利要求2所述的音频生成方法，其特征在于，所述对所述待预测采样信号进行特征提取处理，得到所述待预测采样信号的第一幅度谱、直流分量幅度谱以及相位谱的步骤，包括：根据预设的时频域转换条件将所述待预测采样信号转换至频域，得到所述待预测采样信号的频谱；根据所述待预测采样信号的频谱，确定所述待预测采样信号的相位谱；对所述待预测采样信号进行幅度谱提取处理，得到所述待预测采样信号的第一幅度谱和直流分量幅度谱。4.根据权利要求3所述的音频生成方法，其特征在于，所述对所述待预测采样信号进行幅度谱提取处理，得到所述待预测采样信号的第一幅度谱和直流分量幅度谱的步骤，包括：对所述待预测采样信号进行滤波处理，得到第一滤波信号；根据所述预设的时频域转换条件将所述第一滤波信号转换到频域，得到所述第一滤波信号的频谱；根据所述第一滤波信号的频谱，确定所述待预测采样信号的第一幅度谱和直流分量幅度谱。5.根据权利要求1所述的音频生成方法，其特征在于，在所述将所述第一幅度谱输入至训练后的音频预测模型，输出所述待预测采样信号对应的第二幅度谱，所述音频预测模型是由卷积网络和卷积长短时记忆网络构建的神经网络模型的步骤之前，还包括：获取训练集和初始音频预测模型，所述初始音频预测模型包...

【专利技术属性】
技术研发人员：李彤，杨张辉，高可攀，
申请(专利权)人：深圳市潮流网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人