语音处理方法、装置、系统、设备及存储介质制造方法及图纸

技术编号:34386615 阅读:9 留言:0更新日期:2022-08-03 21:09
本申请实施例提供语音处理方法、装置、系统、设备及存储介质,其方法包括:对待编码的语音数据进行特征提取,生成第一语音特征;根据所述第一语音特征,确定编码后的语音数据;根据所述编码后的语音数据,训练生成对抗网络,所述生成对抗网络用于解码语音数据。解决了现有技术无法保证高保真音频质量的同时,实现高效率、低消耗处理的音频编解码的问题。低消耗处理的音频编解码的问题。低消耗处理的音频编解码的问题。

【技术实现步骤摘要】
语音处理方法、装置、系统、设备及存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种语音处理方法、装置、系统、设备及存储介质。

技术介绍

[0002]随着信息技术的发展,人们对实时通信的需求不断增加,并逐渐成为工作生活中不可或缺的一部分。但是,海量的音视频通话分钟数对互联网基础设施提出了巨大的挑战。
[0003]目前,在网络环境中,仍然存在弱网现象,因此,为了实现在有限的带宽下提供高质量的音频体验,一般采用自回归模型或端到端神经音频编解码器。但是,自回归模型,无法并行运算,运行效率低,开销大;端到端神经音频编解码器虽然采用了可并行计算的编解码器,但直接对输入语音进行编码,整体消耗偏高。
[0004]因此,现有技术无法保证高保真音频质量的同时,实现高效率、低消耗处理的音频编解码。

技术实现思路

[0005]本申请实施例提供一种语音处理方法、装置、系统、设备及存储介质,以解决现有技术无法保证高保真音频质量的同时,实现高效率、低消耗处理的音频编解码的问题。
[0006]第一方面,本申请实施例提供一种语音处理方法,所述方法包括:
[0007]对待编码的语音数据进行特征提取,生成第一语音特征;
[0008]根据所述第一语音特征,确定编码后的语音数据;
[0009]根据所述编码后的语音数据,训练生成对抗网络,所述生成对抗网络用于解码语音数据。
[0010]可选的,所述对待编码的语音数据进行特征提取,生成第一语音特征,包括:
[0011]若所述待编码的语音数据为频域语音信号,则将所述频域语音信号转换成时域语音信号,并对所述时域语音信号进行特征提取,得到梅尔谱;
[0012]若所述待编码的语音数据为所述时域语音信号,则对所述时域语音信号进行特征提取,得到梅尔谱;
[0013]其中,所述梅尔谱用于表示所述第一语音特征。
[0014]可选的,所述根据所述第一语音特征,确定编码后的语音数据,包括:
[0015]对所述第一语音特征进行场景检测,确定与所述第一语音特征匹配的目标场景,并得到与所述目标场景对应的第二语音特征;
[0016]根据所述第二语音特征,确定编码后的语音数据。
[0017]可选的,所述根据所述第二语音特征,确定编码后的语音数据,包括:
[0018]对所述第二语音特征进行残差量化,得到量化后的语音特征,以及生成码本和所述码本对应的索引值;
[0019]将所述量化后的语音特征作为编码后的语音数据;
[0020]其中,所述码本用于通过索引值查找所述量化后的语音特征。
[0021]可选的,所述生成对抗网络包括生成器网络和判别器网络,所述生成器网络用于解码编码后的语音数据,所述判别器网络用于从所述待编码的语音数据中分辨出解码后的语音数据,以更新所述生成器网络;其中,所述待编码的语音数据为多个,相应的,所述编码后的语音数据为多个;所述根据所述编码后的语音数据,训练生成对抗网络,包括:
[0022]将多个所述编码后的语音数据划分为多个训练样本集,并针对每个训练样本集重复执行下述步骤,直至满足停止训练条件停止生成器网络和判别器网络的训练:
[0023]将所述训练样本集输入到所述生成器网络中,训练得到所述训练样本集中每个编码后的语音数据对应的解码后的语音数据;
[0024]将所述解码后的语音数据和所述训练样本集中每个编码后的语音数据对应的待编码的语音数据输入到所述判别器网络中,计算所述生成对抗网络的损失值;
[0025]通过所述损失值更新所述生成器网络和所述判别器网络。
[0026]第二方面,本申请实施例提供一种语音处理方法,应用于发送端;所述方法包括:
[0027]确定待编码的目标语音数据,并对所述待编码的目标语音数据进行特征提取,得到第一目标语音特征;
[0028]对所述第一目标语音特征进行编码,得到编码后的目标语音数据;
[0029]根据所述编码后的目标语音数据,向接收端发送指示消息,所述指示消息用于指示所述接收端根据所述指示消息中的封装信息,确定所述编码后的目标语音数据,并根据所述目标语音数据,通过生成对抗网络,得到解码后的目标语音数据。
[0030]第三方面,本申请实施例提供一种语音处理方法,应用于接收端;所述方法包括:
[0031]接收发送端发送的指示消息;
[0032]对所述指示消息中的封装信息进行解析,得到编码后的目标语音数据,所述编码后的目标语音数据是由接收端通过对待编码的目标语音数据进行特征提取得到第一目标语音特征,并对所述第一目标语音特征进行编码得到的;
[0033]根据所述编码后的目标语音数据,通过生成对抗网络,得到解码后的目标语音数据。
[0034]第四方面,本申请实施例提供一种语音处理装置,所述装置包括:
[0035]特征提取模块,用于对待编码的语音数据进行特征提取,生成第一语音特征;
[0036]编码模块,用于根据所述第一语音特征,确定编码后的语音数据;
[0037]训练模块,用于根据所述编码后的语音数据,训练生成对抗网络,所述生成对抗网络用于解码语音数据。
[0038]第五方面,本申请实施例提供一种语音处理装置,应用于发送端,所述装置包括:
[0039]处理模块,用于确定待编码的目标语音数据,并对所述待编码的目标语音数据进行特征提取,得到第一目标语音特征;
[0040]编码模块,用于对所述第一目标语音特征进行编码,得到编码后的目标语音数据;
[0041]发送模块,用于根据所述编码后的目标语音数据,向接收端发送指示消息,所述指示消息用于指示所述接收端根据所述指示消息中的封装信息,确定所述编码后的目标语音数据,并根据所述目标语音数据,通过生成对抗网络,得到解码后的目标语音数据。
[0042]第六方面,本申请实施例提供一种语音处理装置,应用于接收端,所述装置包括:
[0043]接收模块,用于接收发送端发送的指示消息;
[0044]处理模块,用于对所述指示消息中的封装信息进行解析,得到编码后的目标语音数据,所述编码后的目标语音数据是由接收端通过对待编码的目标语音数据进行编码得到的;
[0045]解码模块,用于根据所述编码后的目标语音数据,通过生成对抗网络,得到解码后的目标语音数据。
[0046]第七方面,本申请实施例提供一种语音处理系统,所述系统包括:
[0047]发送端和接收端,所述发送端和所述接收端通信连接,用以实现端到端的传输;
[0048]所述发送端用于实现如第二方面任一项所述的方法;
[0049]所述接收端用于实现如第三方面任一项所述的方法;
[0050]其中,所述发送端配置有前向纠错功能,用以在网络传输过程中加入冗余信息,支持各种网络环境下的正确传输;
[0051]所述接收端配置有丢包补偿后处理功能,用以当语音特征丢失时,会记录当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:对待编码的语音数据进行特征提取,生成第一语音特征;根据所述第一语音特征,确定编码后的语音数据;根据所述编码后的语音数据,训练生成对抗网络,所述生成对抗网络用于解码语音数据。2.根据权利要求1所述的方法,其特征在于,所述对待编码的语音数据进行特征提取,生成第一语音特征,包括:若所述待编码的语音数据为频域语音信号,则将所述频域语音信号转换成时域语音信号,并对所述时域语音信号进行特征提取,得到梅尔谱;若所述待编码的语音数据为所述时域语音信号,则对所述时域语音信号进行特征提取,得到梅尔谱;其中,所述梅尔谱用于表示所述第一语音特征。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一语音特征,确定编码后的语音数据,包括:对所述第一语音特征进行场景检测,确定与所述第一语音特征匹配的目标场景,并得到与所述目标场景对应的第二语音特征;根据所述第二语音特征,确定编码后的语音数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述第二语音特征,确定编码后的语音数据,包括:对所述第二语音特征进行残差量化,得到量化后的语音特征,以及生成码本和所述码本对应的索引值;将所述量化后的语音特征作为编码后的语音数据;其中,所述码本用于通过索引值查找所述量化后的语音特征。5.根据权利要求1或2所述的方法,其特征在于,所述生成对抗网络包括生成器网络和判别器网络,所述生成器网络用于解码编码后的语音数据,所述判别器网络用于从所述待编码的语音数据中分辨出解码后的语音数据,以更新所述生成器网络;其中,所述待编码的语音数据为多个,相应的,所述编码后的语音数据为多个;所述根据所述编码后的语音数据,训练生成对抗网络,包括:将多个所述编码后的语音数据划分为多个训练样本集,并针对每个训练样本集重复执行下述步骤,直至满足停止训练条件停止生成器网络和判别器网络的训练:将所述训练样本集输入到所述生成器网络中,训练得到所述训练样本集中每个编码后的语音数据对应的解码后的语音数据;将所述解码后的语音数据和所述训练样本集中每个编码后的语音数据对应的待编码的语音数据输入到所述判别器网络中,计算所述生成对抗网络的损失值;通过所述损失值更新所述生成器网络和所述判别器网络。6.一种语音处理方法,其特征在于,应用于发送端;所述方法包括:确定待编码的目标语音数据,并对所述待编码的目标语音数据进行特征提取,得到第一目标语音特征;对所述第一目标语音特征进行编码,得到编码后的目标语音数据;
根据所述编码后的目标语音数据,向接收端发送指示消息,所述指示消息用于指示所述接收端根据所述指示消息中的封装信息,确定所述编码后的目标语音数据,并根据所述目标语音数据,通过生成对抗网络,得到解码后的目标语音数据。7.一种语音处理方法,其特征在于,应用于接收端;所述方法...

【专利技术属性】
技术研发人员:宋琦
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1