语音信号处理方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号：37125994 阅读：28 留言：0更新日期：2023-04-06 21:24

本申请实施例提供了一种语音信号处理方法、装置、电子设备及计算机存储介质，涉及人工智能和云技术领域。包括：接收待处理语音信号对应的编码码流，编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，不连续的语音信号是按照设定帧间隔对待处理语音信号进行抽帧处理得到的；对编码码流进行解码得到各帧原始语音信号，并确定各帧原始语音信号的频域特征；对各帧原始语音信号的频域特征进行还原(插值和神经网络模型)处理，得到各帧重建语音信号的频域特征；对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号。在本申请中，由发送端设备对抽帧后的语音信号进行编码并发送至接送端，有效降低带宽。有效降低带宽。有效降低带宽。

全部详细技术资料下载

【技术实现步骤摘要】
语音信号处理方法、装置、电子设备及计算机存储介质

[0001]本申请涉及人工智能和云
，具体而言，本申请涉及一种语音信号处理方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]语音编解码技术在现代通讯系统中占有重要的地位，比如，在语音通话应用中，对于采集到的模拟的语音信号，发送端设备通过模数转换电路将模拟的语音信号转换为数字语音信号，数字信号经过语音编码器进行压缩，然后按照通信网络传输格式和协议打包发送到接收端设备，接收端设备接收到数据包后解码数据包，并通过语音解码器处理得到数字语音信号，最后数字语音信号进行播放。通过语音编解码技术可有效地降低语音信号传输的带宽，对于节省语音信号存储传输成本，保障通信网络传输过程中的语音信息完整性方面起了决定性作用。因此，对于一些对通话带宽有限或通话带宽消耗较高的场景，如何更有效地降低传输带宽是目前亟待解决的技术问题。

技术实现思路

[0003]本申请提供了一种语音信号处理方法、装置、电子设备及计算机存储介质，能够有效降低带宽。
[0004]一方面，本申请实施例提供了一种语音信号处理方法，该方法包括：
[0005]接收待处理语音信号对应的编码码流，编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，不连续的语音信号是按照设定帧间隔对待处理语音信号进行抽帧处理得到的；
[0006]对编码码流进行解码得到各帧原始语音信号，并确定各帧原始语音信号的频域特征；
[0007]基于各帧原始语音信号的频域...

【技术保护点】

【技术特征摘要】
1.一种语音信号处理方法，其特征在于，包括：接收待处理语音信号对应的编码码流，所述编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，所述不连续的语音信号是按照设定帧间隔对所述待处理语音信号进行抽帧处理得到的；对所述编码码流进行解码得到各帧所述原始语音信号，并确定各帧所述原始语音信号的频域特征；基于各帧所述原始语音信号的频域特征，对各帧所述原始语音信号进行插值处理，得到各帧所述原始语音信号之间的补偿帧信号的频域特征；将各帧所述原始语音信号的频域特征和各所述补偿帧信号的频域特征输入至训练好的神经网络模型，得到各帧待重建语音信号的频谱增益，各帧所述待重建语音信号包括各帧所述原始语音信号和各所述补偿帧信号；基于各帧所述待重建语音信号的频谱增益以及各帧所述待重建语音信号的频域特征，确定各帧重建语音信号的频域特征；对各帧所述重建语音信号的频域特征进行频时变换，得到目标语音信号。2.根据权利要求1所述的方法，其特征在于，所述基于各帧所述原始语音信号的频域特征，对各帧所述原始语音信号进行插值处理，得到各帧所述原始语音信号之间的补偿帧信号的频域特征，包括：对于各帧所述原始语音信号中每对相邻帧信号，基于所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行插值处理，得到所述相邻帧信号之间的补偿帧信号的频域特征；根据各相邻帧信号之间的补偿帧信号的频域特征，确定各帧所述原始语音信号之间的补偿帧信号的频域特征。3.根据权利要求2所述的方法，其特征在于，对于各帧所述信号中每对相邻帧信号，所述基于所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行插值处理，得到所述相邻帧信号之间的补偿帧信号的频域特征，包括：获取相邻帧信号之间的补偿帧信号的频域特征与所述相邻帧信号中各帧原始语音信号的频域特征之间的第一关联关系；基于所述第一关联关系和所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行内插值处理，得到所述相邻帧信号之间的补偿帧信号的频域特征。4.根据权利要求3所述的方法，其特征在于，对于各帧所述原始语音信号中每对相邻帧信号，所述相邻帧信号中包括第一信号和第二信号，所述第一信号在所述第二信号之前；所述基于所述第一关联关系和所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行插值处理，得到所述相邻帧信号之间的补偿帧信号的频域特征，包括：基于所述第一关联关系和所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行内插值处理，得到所述相邻帧信号之间的内插信号的频域特征；获取相邻帧信号之间的补偿帧信号的频域特征、所述相邻帧信号的第三信号的频域特征和所述第一信号的频域特征之间的第二关联关系，所述第三信号为所述第一信号的前一帧信号；基于所述第二关联关系、所述第一信号的频域特征和所述第三信号的频域特征，对所
述相邻帧信号进行外插值处理，得到所述相邻帧信号之间的外插信号的频域特征；对各帧所述内插信号的频域特征与各帧所述外插信号的频域特征进行融合，得到所述相邻帧信号之间的补偿帧信号的频域特征。5.根据权利要求4所述的方法，其特征在于，所述对各帧所述内插信号的频域特征与各帧所述外插信号的频域特征进行融合，得到所述相邻帧的信号之间的补偿帧信号的频域特征，包括：获取各帧所述内插信号对应的第一权重以及各帧所述外插信号对应的第二权重；对于各帧所述内插信号中的每帧内插信号，对所述内插信号的频域特征和所述内插信号对应的第一权重进行加权处理，得到加权后的内插信号的频域特征；对于各帧所述外插信号中的每帧外插信号，对所述外插信号的频域特征和所述外插信号对应的第二权重进行加权处理，得到加权后的外插信的频域特征；基于各帧所述加权后的内插信号的频域特征和各帧所述加权后的外插信号的频域特征，确定所述相邻帧信号之间的补偿帧信号的频域特征。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述神经网络模型是通过以下方式训练得到的：获取样本数据，所述样本数据包括多个样本语音信号；对于每个样本语音信号，对所述样本语音信号进行分帧处理，得到各帧分帧语音信号，并按照设定帧间隔对各帧所述分帧语音信号进行抽帧处理，得到不连续的抽帧样本语音信号；确定所述不连续的抽帧样本语音信号中各帧的频域特征；对所述不连续的抽帧样本语音信号中各帧的频域特征进行插值处理，得到各帧待重建样本语音信号的频域特征；基于各帧所述待重建样本语音信号的频域特征和各帧所述分帧语音信号，确定各帧所述待重建样本语音信号的真实频谱增益；重复执行以下训练步骤直至损失值满足训练结束条件，得到所述神经网络模型：将各帧所述待重建样本语音信号的频域特征输入至初始神经网络模型，得到各帧所述待重建样本语音信号对应的预测频谱增益；基于各所述预测频谱增益和各所述真实频谱增益，确定所述初始神经网络模型对应的损失值，若所述损失值满足训练结束条件，结束训练，得到所述神经网络模型；若不满足，调整所述初始神经网络模型的模型参数，并重复所述训练步骤。7.根据权利要求6所述的方法，其特征在于，所述确定所述不连续的抽帧样本语音信号...

【专利技术属性】
技术研发人员：梁俊斌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人