语音数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：31501652 阅读：12 留言：0更新日期：2021-12-22 23:19

本申请实施例公开了一种语音数据处理方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：获取有损语音数据和有损语音数据对应的样本语音数据，有损语音数据是对样本语音数据进行压缩所得到的；调用语音处理模型，对有损语音数据进行编码得到语音特征，对语音特征进行解码，得到质量参数高于有损语音数据的目标语音数据；根据样本语音数据与目标语音数据之间的差异，训练语音处理模型。利用有损语音数据和样本语音数据训练语音处理模型，能够使语音处理模型学习到进行语音还原时所需依据的特征，从而提供一种基于语音处理模型来修复语音数据的方式，能够提高语音数据的处理效果。数据的处理效果。数据的处理效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音数据处理方法、装置、计算机设备及存储介质

[0001]本申请实施例涉及计算机
，特别涉及一种语音数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术和网络技术的发展，不同计算机设备之间能够进行语音数据的传输。为了提高传输效率，通常由发送端将语音数据以较低的码率进行压缩，然后向接收端发送压缩后的语音数据。但是压缩语音数据会造成语音数据的质量下降，导致接收端接收到的是有损语音数据。
[0003]为了解决上述问题，接收端可以对接收到的有损语音数据进行滤波处理，从而在频域上提取语音数据的频谱特征，然后根据频谱特征来还原得到无损语音数据，但是语音还原的效果仍然不够好。

技术实现思路

[0004]本申请实施例提供了一种语音数据处理方法、装置、计算机设备及存储介质，能够提高语音数据处理的效果。所述技术方案如下：
[0005]一方面，提供了一种语音数据处理方法，所述方法包括：
[0006]获取有损语音数据和所述有损语音数据对应的样本语音数据，所述有损语音数据是对所述样本语音数据进行压缩所得到的；
[0007]调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，所述质量参数表征语音数据的质量损失程度；
[0008]根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型。
[0009]另一方面，提供了一种语音数据处理装置，所述装置包括：
>[0010]数据获取模块，用于获取有损语音数据和所述有损语音数据对应的样本语音数据，所述有损语音数据是对所述样本语音数据进行压缩所得到的；
[0011]语音处理模块，用于调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，所述质量参数表征语音数据的质量损失程度；
[0012]模型训练模块，用于根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型。
[0013]可选地，所述语音处理模型包括编码网络和解码网络，所述编码网络包括m个编码层，所述解码网络包括n个解码层，所述m和所述n为大于1的整数，所述语音处理模块，包括：
[0014]编码单元，用于调用第k个编码层，对所述有损语音数据进行编码，得到第k个编码语音特征，所述k为小于所述m的正整数；
[0015]所述编码单元，还用于继续调用所述第k个编码层的下一个编码层，对所述第k个编码语音特征进行编码，得到下一个编码语音特征，直至得到最后一个编码层输出的所述语音特征；
[0016]解码单元，用于调用第h个解码层，对所述语音特征进行解码，得到第h个解码语音特征，所述h为小于所述n的正整数；
[0017]所述解码单元，还用于继续调用所述第h个解码层的下一个解码层，对所述第h个解码语音特征进行解码，得到下一个解码语音特征，直至得到最后一个解码层输出的所述目标语音数据。
[0018]可选地，所述有损语音数据包括多个采样点，所述语音处理模块，包括：
[0019]采样点编码单元，用于调用所述语音处理模型，并行地对所述多个采样点进行编码，得到所述语音特征，对所述语音特征进行解码，得到所述目标语音数据。
[0020]可选地，所述语音处理模块，包括：
[0021]子带划分单元，用于对所述有损语音数据进行子带划分，得到多个有损子带数据，每个有损子带数据所属的频段不同；
[0022]子带数据编码单元，用于调用所述语音处理模型，对所述多个有损子带数据进行编码，得到所述语音特征，对所述语音特征进行解码，得到多个目标子带数据；
[0023]子带合并单元，用于对所述多个目标子带数据进行子带合并，得到所述目标语音数据。
[0024]可选地，所述子带合并单元，用于对所述多个目标子带数据进行子带合并，将子带合并所得到的语音数据进行平滑处理，得到所述目标语音数据。
[0025]可选地，所述模型训练模块，包括：
[0026]梅尔谱提取单元，用于分别对所述样本语音数据和所述目标语音数据进行梅尔谱提取，得到所述样本语音数据对应的样本梅尔谱特征，以及所述目标语音数据对应的目标梅尔谱特征；
[0027]第一训练单元，用于根据所述样本语音数据与所述目标语音数据之间的差异，以及所述样本梅尔谱特征与所述目标梅尔谱特征之间的差异，训练所述语音处理模型。
[0028]可选地，所述装置还包括：
[0029]语音判别模块，用于调用语音判别模型，对所述目标语音数据进行判别，得到第一判别结果，所述第一判别结果用于表示所述目标语音数据是否是调用所述语音处理模型生成的；
[0030]所述模型训练模块，包括：
[0031]第二训练单元，用于根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果，训练所述语音处理模型。
[0032]可选地，所述语音判别模块，还用于调用所述语音判别模型，对所述样本语音数据进行判别，得到第二判别结果，所述第二判别结果用于表示所述样本语音数据是否是调用所述语音处理模型生成的；
[0033]所述模型训练模块，还用于根据所述第一判别结果和所述第二判别结果，训练所述语音判别模型。
[0034]可选地，所述模型训练模块，包括：
[0035]第三训练单元，用于根据所述样本语音数据与所述目标语音数据之间的差异、所述第一判别结果以及所述第一判别结果与所述第二判别结果之间的差异，训练所述语音处理模型。
[0036]可选地，所述语音判别模型包括频域判别模型和时域判别模型，所述第一判别结果包括所述频域判别模型输出的第三判别结果和所述时域判别模型输出的第四判别结果，所述语音判别模块，包括：
[0037]频域变换单元，用于对所述目标语音数据进行频域变换，得到频域语音数据；
[0038]第一判别单元，用于调用所述频域判别模型，对所述频域语音数据进行判别，得到所述第三判别结果；
[0039]第二判别单元，用于调用所述时域判别模型，对所述目标语音数据进行判别，得到所述第四判别结果。
[0040]可选地，所述语音处理模块，还用于调用训练后的所述语音处理模型，对任一语音数据进行编码得到第一语音特征，对所述第一语音特征进行解码，得到质量参数高于所述任一语音数据的语音数据。
[0041]另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的语音数据处理方法中所执行的操作。
[0042]另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的语音数据处理方法中所执行的操作。
[0043]另一方面，提供了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音数据处理方法，其特征在于，所述方法包括：获取有损语音数据和所述有损语音数据对应的样本语音数据，所述有损语音数据是对所述样本语音数据进行压缩所得到的；调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，所述质量参数表征语音数据的质量损失程度；根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型。2.根据权利要求1所述的方法，其特征在于，所述语音处理模型包括编码网络和解码网络，所述编码网络包括m个编码层，所述解码网络包括n个解码层，所述m和所述n为大于1的整数，所述调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，包括：调用第k个编码层，对所述有损语音数据进行编码，得到第k个编码语音特征，所述k为小于所述m的正整数；继续调用所述第k个编码层的下一个编码层，对所述第k个编码语音特征进行编码，得到下一个编码语音特征，直至得到最后一个编码层输出的所述语音特征；调用第h个解码层，对所述语音特征进行解码，得到第h个解码语音特征，所述h为小于所述n的正整数；继续调用所述第h个解码层的下一个解码层，对所述第h个解码语音特征进行解码，得到下一个解码语音特征，直至得到最后一个解码层输出的所述目标语音数据。3.根据权利要求1所述的方法，其特征在于，所述有损语音数据包括多个采样点，所述调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，包括：调用所述语音处理模型，并行地对所述多个采样点进行编码，得到所述语音特征，对所述语音特征进行解码，得到所述目标语音数据。4.根据权利要求1所述的方法，其特征在于，所述调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，包括：对所述有损语音数据进行子带划分，得到多个有损子带数据，每个有损子带数据所属的频段不同；调用所述语音处理模型，对所述多个有损子带数据进行编码，得到所述语音特征，对所述语音特征进行解码，得到多个目标子带数据；对所述多个目标子带数据进行子带合并，得到所述目标语音数据。5.根据权利要求4所述的方法，其特征在于，所述对所述多个目标子带数据进行子带合并，得到所述目标语音数据，包括：对所述多个目标子带数据进行子带合并，将子带合并所得到的语音数据进行平滑处理，得到所述目标语音数据。6.根据权利要求1所述的方法，其特征在于，所述根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型，包括：分别对所述样本语音数据和所述目标语音数据进行梅尔谱提取，得到所述样本语音数
据对应的样本梅尔谱特征，以及所述目标语音数据对应的目标梅尔谱特征；根据所述样本语音数据与所述目标语音数据之间的差异，以及所述样本梅尔谱特征与所述目标梅尔谱特征之间的差异，训练所述语音处理模型。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：调用语音判别模型，对所述目标语音数据进行判别，得到第一判别结果，所述第一判别结果用于表示所述目标语音数据是否是调用所述语音处理模型生成的；所述根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型，包括：根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果，训练所述语音...

【专利技术属性】
技术研发人员：阳珊，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人