The invention provides an audio quality enhancement method, device, system, storage medium and computer program based on deep learning. The method includes: acquiring the lossy audio data, extracting the features of the lossy audio data to obtain the characteristics of the lossy audio data; and reconstructing the lossy audio data into the output audio data with sound quality close to lossless audio based on the characteristics of the lossy audio data by using the trained audio reconstruction neural network. According to the embodiment of the present invention, the audio quality enhancement method, device, system, storage medium and computer program based on deep learning enhance the lossy audio quality, so that the lossy audio quality can be reconstructed by deep neural network to achieve near lossless audio quality, thus achieving the quality improvement effect that traditional methods can not achieve.
【技术实现步骤摘要】
基于深度学习的音频音质增强
本专利技术涉及音质优化
,更具体地涉及一种基于深度学习的音频音质增强方法、装置、系统、存储介质和计算机程序。
技术介绍
音质通常指人对音频质量的主观评价。影响音频音质的因素有很多,对于编码的音频,一个起决定性作用的因素是音频的编码压缩程度。原始的声音被录音后形成的可能是线性脉冲编码调制(LPCM)格式文件,是数模转换后的脉冲序列,这在音频理论上是音质最还原实际现场的数字音频,是高码率的无损的格式。但是由于通信带宽和存储空间的限制,一般在数字设备上存储的音频要经过编码压缩。无损压缩诸如无损音频压缩编码如FLAC、APE等,能够保存原始无损文件信息。有损压缩诸如MP3、高级音频编码(AAC)等由于极大降低了码率、节省了传输和存储资源而得到了更广泛的应用。然而,有损压缩方法虽然在一定程度上保存了音频基本的音质水平,但是相比无损音频音质仍然有所不如。随着人们对音质的需求越来越高,有损音频格式的音质已不能满足需求,因此在有限的存储和带宽资源限制下,通过数字信号处理方法,对有损音频进行重构,使其音质接近编码前的无损音频是一个有价值的研究方向。 ...
【技术保护点】
1.一种基于深度学习的音频音质增强方法,其特征在于,所述方法包括:获取有损音频数据,并对所述有损音频数据进行特征提取以得到所述有损音频数据的特征;以及基于所述有损音频数据的特征,利用训练好的音频重构神经网络将所述有损音频数据重构为音质接近于无损音频的输出音频数据。
【技术特征摘要】
1.一种基于深度学习的音频音质增强方法,其特征在于,所述方法包括:获取有损音频数据,并对所述有损音频数据进行特征提取以得到所述有损音频数据的特征;以及基于所述有损音频数据的特征,利用训练好的音频重构神经网络将所述有损音频数据重构为音质接近于无损音频的输出音频数据。2.根据权利要求1所述的方法,其特征在于,所述音频重构神经网络的训练包括:获取无损音频样本和有损音频样本,其中所述有损音频样本是由所述无损音频样本通过变换而得到;对所述有损音频样本和所述无损音频样本分别进行特征提取以分别得到所述有损音频样本的特征和所述无损音频样本的特征;以及将得到的所述有损音频样本的特征作为所述音频重构神经网络的输入层的输入,并将得到的所述无损音频样本的特征作为所述音频重构神经网络的输出层的目标,以训练所述音频重构神经网络。3.根据权利要求2所述的方法,其特征在于,所述无损音频样本经过格式变换得到所述有损音频样本。4.根据权利要求3所述的方法,其特征在于,所述无损音频样本和所述有损音频样本的采样频率和量化位数均相同。5.根据权利要求1或2所述的方法,其特征在于,所述特征提取得到的特征包括频域幅度和/或能量信息。6.根据权利要求5所述的方法,其特征在于,所述特征提取得到的特征还包括频谱相位信息。7.根据权利要求6所述的方法,其特征在于,所述特征提取的方式包括短时傅里叶变换。8.根据权利要求2所述的方法,其特征在于,所述音频重构神经网络的训练还包括:在对所述有损音频样本和所述无损音频样本进行特征提取之前,对所述有损音频样本和所述无损音频样本分别进行分帧,并且所述特征提取是针对分帧后得到的音频样本逐帧进行的。9.根据权利要求8所述的方法,其特征在于,所述音频重构神经网络的训练还包括:在对所述有损音频样本和所述无损音频样本进行分帧之前,将所述有损音频样本和所述无损音频样本分别解码为时域波形数据,并且所述分帧是针对解码后得到的时域波形数据进行的。10.根据权利要求1所述的方法,其特征在于,所述利用训练好的音频重构神经网络将所述有损音频数据重构为所述输出音频数据包括:将所述有损音频数据的特征作为所述训练好的音频重构神经网络的输入,并由所述训练好的音频重构神经网络输出重构音频特征;以及基于所述重构音频特征生成时域音频波形以作为所述输出音频数据。11.一种基于深度学习的音频音质增强装置,其特征在于,所述装置包括:特征提取模块,用于获取有损音频数据,并对所述有损音频数据进行特征提取以得到所述有损音频数据的特征...
【专利技术属性】
技术研发人员:秦宇,姚青山,喻浩文,卢峰,
申请(专利权)人:安克创新科技股份有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。