音质转换的模型训练方法、提升语音音质的方法及装置制造方法及图纸

技术编号:34432199 阅读:28 留言:0更新日期:2022-08-06 16:11
本申请公开了一种音质转换的模型训练方法、提升语音音质的方法及装置,属于语音编解码技术领域。该方法主要包括:对高音质语音进行加窗与低延迟改进型离散余弦变换获取训练高音质谱系数;根据预设高压缩率的语音编解码器对高音质语音进行特征提取获取训练低音质谱系数;将训练低音质谱系数输入神经网络模型中获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数的差值;根据差值对神经网络模型进行训练,获得音质转换模型。通过在进行语音通话的蓝牙设备的编解码装置中加入上述音质转换模型,将低音质语音转换为高音质语音,使得蓝牙设备接收的经高压缩率压缩导致受损的语音也能转换为音质较高的语音,提高用户体验感。户体验感。户体验感。

【技术实现步骤摘要】
音质转换的模型训练方法、提升语音音质的方法及装置


[0001]本申请涉及语音编解码
,特别涉及一种音质转换的模型训练方法、提升语音音质的方法及装置。

技术介绍

[0002]目前世界上很多地区仍然在使用第二代移动通信网络(简称2G)和第三代移动通信网络(简称3G),伴随着2G与3G网络的是窄带语音信号的广泛使用;在相关的技术中,广泛使用的语音编解码的型号包括:(1)GSM

HR,该型号的语音编解码器的采样率为8kHz,码率为6.5kbps;GSM

FR,该型号的语音编解码器的采样率为8kHz,码率为13kHz;GSM

EFR,该型号的语音编解码器的采样率为8kHz,码率为13kHz;AMR,该型号的语音编解码器的采样率为8kHz,码率为4.75~12.2kbps;EVRC

A,该型号的语音编解码器的采样率为8kHz,平均码率约为5kbps;EVRC

B,该型号的语音编解码器的采样率为8kHz,平均码率约为4kbps。
[0003]相对于蓝牙通信中使用的型号为CVSD和mSBC的码率为64kbps的编解码器,以及LC3要求的最低码率16kbps;上述的2G与3G网络中使用的语音编解码器的压缩率较高,然而较高的压缩率虽然提高了移动通信的网络容量,但是压缩的过程损失了语音信息,导致语音的音质受损,尤其造成人声辨识度的损失。
[0004]例如,在2G与3G网络的通信过程中,当近端手机使用蓝牙通话时,若与该近端手机进行通信的远端手机处于2G或3G网络,则该远端手机的上行链路发送的语音信号的码流是经语音编解码器进行压缩而成的,该状况导致近端手机下行链路接收到的码流,音质已经受到损失;即使近端手机使用音质较好的LC3编解码器,最终发送到蓝牙耳机的语音也并不能恢复较好的音质,因此使得用户的体验感降低。
[0005]在相关技术中涉及音质受损的场景多为在不同声道中转换语音时,使得语音的音质受损的情况,因此其解决的技术问题也是针对于上述的特定场景而言的音质提升,而对上述场景所适用的音质提升的方法并不适用与本方案所在的场景,直接套用在本方案所使用的场景中,并不能有效的实现音质提升的效果。即使存在因高压缩率导致的音质受损的状况,其解决的方式为通过特定函数补全低码率语音中缺失的高频信号;其造成运算量大,并且无论压缩后的低码率语音是什么,均为其补全固定的高频信号,因此,会造成与原先的低码率语音的连贯性低,不能有效的提升音质。

技术实现思路

[0006]针对现有技术存在的压缩的过程损失了语音信息,导致语音的音质受损,尤其造成人声辨识度的损失的问题,本申请主要提供一种音质转换的模型训练方法、提升语音音质的方法、装置、介质及设备。
[0007]为了实现上述目的,本申请采用的一个技术方案是:提供一种音质转换的模型训练方法,其包括:对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数;根据预设高压缩率的语音编解码器对高音质语音进行特征
提取,获取高音质语音对应的训练低音质谱系数;将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值;以及根据差值对神经网络模型进行训练,获得音质转换模型。
[0008]本申请采用的另一个技术方案是:提供一种提升语音音质的方法,其包括:利用标准的LC3编解码器对蓝牙设备接收的低音质语音进行编解码,获取低音质语音对应的低音质谱系数,其中低音质语音为经预设高压缩率的语音编解码器压缩的语音;将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数,根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数,将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值,以及根据差值对神经网络模型进行训练,获得音质转换模型;以及利用LC3编解码器对高音质谱系数进行剩余的编解码步骤,获取低音质码流对应的高音质语音。
[0009]本申请采用的另一个技术方案是:提供一种提升语音音质的装置,其包括:低音质谱系数获取模块,其用于利用标准的LC3编解码器对蓝牙设备接收的低音质语音进行编解码,获取低音质语音对应的低音质谱系数,其中低音质语音为经预设高压缩率的语音编解码器压缩的语音;音质提升模块,其用于将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,高音质特征提取模块,其用于对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数,低音质特征提取模块,其用于根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数,神经网络模块,其用于将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,差值计算模块,其用于计算训练高音质谱系数与转换高音质谱系数之间的差值,以及模型获取模块,根据差值对神经网络模型进行训练,获得音质转换模型;以及高音质语音获取模块,其用于利用LC3编解码器对高音质谱系数进行剩余的编解码步骤,获取低音质码流对应的高音质语音。
[0010]本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行方案一中的音质转换的模型训练方法或方案二中的提升语音音质的方法。
[0011]本申请采用的另一个技术方案是:提供一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行方案一中的音质转换的模型训练方法或方案二中的提升语音音质的方法。
[0012]本申请的技术方案可以达到的有益效果是:通过提供一种音质转换模型,无需低音质语音进行额外的编解码,通过在进行语音通话的蓝牙设备自身的编解码装置中加入上述音质转换模型,将质量不佳的低音质语音转换为高音质语音输出,使得即使蓝牙设备接收的经高压缩率压缩导致受损的语音与远端手机进行蓝牙连接的蓝牙设备,也能转换为音质较高的语音,提高用户体验感。
附图说明
[0013]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0014]图1是本申请一种音质转换的模型训练方法的一个可选实施方式的示意图;图2是本申请一种提升语音音质的方法的一个可选实施方式的示意图;图3是本申请一种提升语音音质的装置的一个可选实施方式的示意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音质转换的模型训练方法,其特征在于,包括:对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取所述高音质语音对应的训练高音质谱系数;根据预设高压缩率的语音编解码器对所述高音质语音进行特征提取,获取所述高音质语音对应的训练低音质谱系数;将所述训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值;以及根据所述差值对所述神经网络模型进行训练,获得音质转换模型。2.根据权利要求1所述的音质转换的模型训练方法,其特征在于,所述根据预设高压缩率的语音编解码器对所述高音质语音进行特征提取,获取所述高音质语音对应的训练低音质谱系数,进一步包括:利用所述语音编解码器对所述高音质语音进行编解码,获取所述高音质语音对应的训练低音质语音;对所述训练低音质语音进行所述加窗与所述低延迟改进型离散余弦变换,获取所述训练低音质语音对应的所述训练高音质谱系数。3.根据权利要求2所述的音质转换的模型训练方法,其特征在于,所述利用所述语音编解码器对所述高音质语音进行编解码,获取所述高音质语音对应的训练低音质语音之前,还包括:根据预设带宽的滤波器,对所述高音质语音进行窄带滤波。4.根据权利要求1

3任一项所述的音质转换的模型训练方法,其特征在于,所述对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取所述高音质语音对应的训练高音质谱系数之前,还包括:对所述高音质语音进行分帧,获取所述高音质语音对应的每一帧语音;利用所述每一帧语音分别获取所述训练高音质谱系数与所述训练低音质谱系数。5.根据权利要求1所述的音质转换的模型训练方法,其特征在于,所述将所述训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值,进一步包括:所述神经网络模型将所述训练低音质谱系数转换为第N转换高音质谱系数,其中所述转换高音质谱系数包括所述第N转换高音质谱系数,所述N为大于0的自然数;计算所述第N转换高音质谱系数与所述训练高音质谱系数的第N差值,其中所述差值包括所述第N差值。6.根据权利要求5所述的音质转换的模型训练方法,其特征在于,所述根据所述差值对所述神经网络模型进行训练,获得音质转换模型,进一步包括:将所述第N差值与预设差值进行对比;若所述第N差值大于所述预设差值,则对所述神经网络模型中的相关参数进行调整,获取所述音质转换模型;若所述第N差值小于或等于所述预设差值,则将所述神经网络模型确定为所述音质转换模型。7.根据权利要求6所述的音质转换的模型训练方法,其特征在于,所述对所述神经网络
模型中的相关参数进行调整,获取所述神经网络模型,进一步包括:根据所述第N差值对所述相关参数进行调整,获取第N更新神经网络模型;将所述训练低音质谱...

【专利技术属性】
技术研发人员:李强王尧叶东翔朱勇
申请(专利权)人:北京百瑞互联技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1