丢包补偿方法及装置制造方法及图纸

技术编号：25602511 阅读：30 留言：0更新日期：2020-09-11 23:59

本说明书提供丢包补偿方法及装置，其中所述丢包补偿方法包括：获取目标音频信号的丢包信号区段，其中所述丢包信号区段包括丢包位置，以及丢包位置的上下文预定时长的音频信号区段；将所述丢包信号区段从时域变换到频域，得到第一频域参数；将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型，获得第二频域参数，其中，所述第二频域参数是与所述丢包位置相关的频域参数；根据所述第二频域参数与所述第一频域参数得到第三频域参数。本说明书的丢包补偿方法利用丢包位置的上下文音频信号对丢包位置进行补偿，将相位和幅值同时输入基于深度神经网络的音频补偿模型进行预测，降低了计算复杂度并且提高了丢包补偿质量。

全部详细技术资料下载

【技术实现步骤摘要】
丢包补偿方法及装置
本说明书涉及音频处理
，特别涉及一种丢包补偿方法。本说明书同时涉及一种丢包补偿装置，一种计算设备，以及一种计算机可读存储介质。
技术介绍
在各种音频处理任务中，会遇到本地降级甚至丢失的信息。譬如损坏的音频文件、音频传输中丢失的信息，以及被噪声本地干扰的音频信号。音频中丢失信息的恢复被称为音频补偿，音频内推/外推或波形代换。丢包补偿(重建)通常旨在提供连贯和有意义的信息，同时防止声音伪影，这样听者就不会知道发生了什么问题。丢包补偿属于语音增强范畴内的一种。现有技术中使用“编码器”(encoder)+“解码器”(decoder)的DNN结构来根据上下文信息恢复丢失的音频内容，DNN结构的输入是64ms数据缺口的上下文音频数据的短时傅里叶变换的系数，DNN结构包括卷积层、全连接层、反卷积层。现有技术分别训练了复数系数和幅值系数两种DNN网络，复数DNN方案比幅值DNN的丢包补偿质量差。而对于幅值DNN方案，DNN网络仅输出幅值信息，相位信息需要单独计算：先设置相位的初始值，再利用算法迭代计...

【技术保护点】
1.一种丢包补偿方法，包括：/n获取目标音频信号的丢包信号区段，其中所述丢包信号区段包括丢包位置，以及丢包位置的上下文预定时长的音频信号区段；/n将所述丢包信号区段从时域变换到频域，得到第一频域参数；/n将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型，获得第二频域参数，其中，所述第二频域参数是与所述丢包位置相关的频域参数；/n根据所述第二频域参数与所述第一频域参数得到第三频域参数。/n

【技术特征摘要】
1.一种丢包补偿方法，包括：
获取目标音频信号的丢包信号区段，其中所述丢包信号区段包括丢包位置，以及丢包位置的上下文预定时长的音频信号区段；
将所述丢包信号区段从时域变换到频域，得到第一频域参数；
将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型，获得第二频域参数，其中，所述第二频域参数是与所述丢包位置相关的频域参数；
根据所述第二频域参数与所述第一频域参数得到第三频域参数。

2.如权利要求1所述的丢包补偿方法，还包括：
对所述第三频域参数进行从频域到时域的变换，得到经过丢包补偿的目标音频信号。

3.如权利要求1或2所述的丢包补偿方法，其中，将所述丢包信号区段从时域变换到频域，得到第一频域参数，包括：
将所述丢包位置用零填充；
将所述丢包信号区段进行短时傅里叶变换，生成所述第一频域参数。

4.如权利要求3所述的丢包补偿方法，其中，所述丢包位置的上下文预定时长的音频信号区段包括：位于丢包位置之前的第一数量个时域帧的第一音频信号区段和/或位于丢包位置之后的第二数量个时域帧的第二音频信号区段；
将所述丢包信号区段进行短时傅里叶变换，生成所述第一频域参数，包括：
基于预定帧长和帧步长，对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换，获得符合所述帧步长的多个频域帧；
获得所述多个频域帧的频域参数作为所述第一频域参数。

5.如权利要求4所述的丢包补偿方法，其中，基于预定帧长和帧步长，对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换，获得符合所述帧步长的多个频域帧，包括：利用窗长度为所述预定帧长、步长为所述帧步长的汉宁窗，对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换，获得符合所述帧步长的多个频域帧。

6.如权利要求4或5所述的丢包补偿方法，其中，所述音频补偿模型包括：第一卷积层组、全连接层组、第二卷积层组和通讯层，所述第一频域参数包括第一幅值参数和第一相位参数，第二频域参数包括第二幅值参数和第二相位参数，所述通讯层位于所述第一卷积层组和所述第二卷积层组中，用于幅值参数和相位参数交互；
将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型，获得第二频域参数，包括：
将所述多个频域帧中的每个频域帧的第一幅值参数输入第一卷积层组，得到中间参数；
将所述中间参数输入全连接层组，得到幅值实数；
计算参考幅值与所述幅值实数的乘积，作为与所述丢包位置相关的频域帧的第二幅值参数；
将所述多个频域帧中的每个频域帧的第一相位参数输入第二卷积层组，得到与所述丢包位置相关的频域帧的第二相位参数。

7.如权利要求4所述的丢包补偿方法，其中，根据所述第二频域参数与所述第一频域参数得到第三频域参数，包括：
将所述第二频域参数与所述第一频域参数中的与丢包位置不相关的频域帧的频域参数进行拼接，得到第三频域参数。

8.如权利要求7所述的丢包补偿方法，其中，所述丢包补偿方法还包括：
对所述第三频域参数进行从频域到时域的变换，得到经过丢包补偿的目标音频信号；
将所述经过丢包补偿的目标音频信号中的前m个时域帧的音频信号替换为原始的目标音频信号中的前m个时域帧的音频信号，将所述经过丢包补偿的目标音频信号中的后n个时域帧的音频信号替换为所述原始的目标音频信号中的后n个时域帧的音频信号，其中，m和n均为大于等于1的整数。

9.一种丢包补偿装置，包括：
获取模块，被配置为获取目标音频信号的丢包信号区段，其中所述丢包信号区段包括丢包位置，以及丢包位置的上下文预定时长的音频信号区段；
第一变换模块，被配置为将所述丢包信号区段从时域变换到频域，得到第一频域参数；
模型输入模块，被配置为将所述第一频域参数输入预先建立的...

【专利技术属性】
技术研发人员：王晓红，陈佳璐，刘鲁鹏，元海明，高强，夏龙，郭常圳，
申请(专利权)人：北京猿力未来科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人