The invention provides a voice quality enhancement method, device and system based on deep learning. The method includes: acquiring the speech data to be processed, extracting the features of the speech data to be processed to obtain the features of the speech data to be processed; and reconstructing the speech data to be processed into the output speech data using the trained speech reconstruction neural network based on the features of the speech data to be processed, and the speech quality of the output speech data. The voice quality is higher than that of the speech data to be processed. According to the embodiment of the present invention, a speech quality enhancement method, device and system based on deep learning method enhance the low-quality speech quality, so that the low-quality speech quality can be reconstructed by deep neural network to achieve the high-quality speech quality, thus achieving the sound quality improvement effect that traditional methods can not achieve.
【技术实现步骤摘要】
基于深度学习的语音音质增强方法、装置和系统
本专利技术涉及音质优化
,更具体地涉及一种基于深度学习的语音音质增强方法、装置和系统。
技术介绍
近年来,语音无线通信飞速发展,目前广泛应用于各种民用和工业领域。无线通信受带宽限制,要求对语音编码压缩,尽可能地降低语音的采样频率和码率。语音编码尽管降低了语音质量,但也极大节省了资源。早期的数字语音通信编码,如全球移动通信系统-半速率(GMS-HR),码率在6.5kbps左右,采用8kHz的采样频率,实际带宽小于4k,损失了很多高频信息,使得人声缺乏辨识度,只能满足基本的语音通信需求。随着人们对音质的需求越来越高,低码率低质量语音音质已不能满足需求。随着网络带宽提升,更高码率质量的语音通信也成为了可能。例如,增强语音服务(EVS)编码技术可能达到48k采样频率和128kbps的码率。但是这并不意味着所有用户都能享受到高清语音通信的体验,例如这样的场景:打电话用户的运营商支持4G网络,而接电话用户的运营商只支持3G网络,那么双方可能只能选择自适应多速率编码-窄带(amr-nb)编码方式进行语音编码,而不是例如16kHz ...
【技术保护点】
1.一种基于深度学习的语音音质增强方法,其特征在于,所述方法包括:获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征;以及基于所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。
【技术特征摘要】
1.一种基于深度学习的语音音质增强方法,其特征在于,所述方法包括:获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征;以及基于所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。2.根据权利要求1所述的方法,其特征在于,所述语音重构神经网络的训练包括:获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到;对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征;以及将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络。3.根据权利要求2所述的方法,其特征在于,所述第一语音样本具有第一码率,所述第二语音样本具有第二码率,所述第一码率高于或等于所述第二码率。4.根据权利要求3所述的方法,其特征在于,所述第一语音样本具有第一采样频率,所述第二语音样本具有第二采样频率,所述第一采样频率高于或等于所述第二采样频率。5.根据权利要求1或2所述的方法,其特征在于,所述特征提取得到的特征包括频域幅度和/或能量信息。6.根据权利要求5所述的方法,其特征在于,所述特征提取得到的特征还包括频谱相位信息。7.根据权利要求6所述的方法,其特征在于,所述特征提取的方式包括短时傅里叶变换。8.根据权利要求2所述的方法,其特征在于,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行特征提取之前,对所述第一语音样本和所述第二语音样本分别进行分帧,并且所述特征提取是针对分帧后得到的语音样本逐帧进行的。9.根据权利要求8所述的方法,其特征在于,所述语音重构神经网络的训练还包括:在对所述第一语音样本和所述第二语音样本进行分帧之前,将所述第一语音样本和所述第二语音样本分别解码为时域波形数据,并且所述分帧是针对解码后得到的时域波形数据进行的。10.根据权利要求1所述的方法,其特征在于,所述利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据包括:将所述待处理语音数据的特征作为所述训练好的语音重构神经网络的输入,并由所述训练好的语音重构神经网络输出重构语音特征;以及基于所述重构语音特征生成时域语音波形以作为所述输出语音数据。11.一种基于深度学习的语音音质增强装置,其特征在于,所述装置包括:特征提取模块,用于获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的...
【专利技术属性】
技术研发人员:秦宇,姚青山,喻浩文,卢峰,
申请(专利权)人:安克创新科技股份有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。