音频丢包补偿处理方法、装置及电子设备制造方法及图纸

技术编号：29039897 阅读：25 留言：0更新日期：2021-06-26 05:49

本发明专利技术实施例提供一种音频丢包补偿处理方法、装置及电子设备，其中，方法包括：获取过去第一数量的已有音频帧的时域信号；对该第一数量的已有音频帧的时域信号进行声学特征提取，生成已有音频帧的声学特征；对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成已有音频帧对应的语义表达；根据声学特征和语义表达，预测当前音频帧的时域信号。在本发明专利技术实施例通过在进行音频帧预测的过程中，对音频帧的原始的时序信号进行特征提取，避免了音频特征的信息损失，此外，在进行音频帧预测过程中，引入语义理解辅助，从而能够更加准确地预测出丢失的音频帧。丢失的音频帧。丢失的音频帧。

全部详细技术资料下载

【技术实现步骤摘要】
音频丢包补偿处理方法、装置及电子设备

[0001]本申请涉及一种音频丢包补偿处理方法、装置及电子设备，属于计算机

技术介绍

[0002]直播凭借其真实性、互动性等优势在电商场景下正变得越来越重要，同时随着移动端的普及，观看直播的网络环境也变得越来越复杂，丢包现象较为严重，传统的音频丢包补偿方案的处理能力无法满足现网直播服务的需求。
[0003]随着深度学习技术的发展，出现了一些基于机器学习的智能丢包补偿方案，但是，在现有技术中，一般是先将音频信号进行频域特征提取后，然后再输入到机器学习模型中进行基于频域特征的音频预测，这样的处理会丢失大量的原始信息，对于音频帧的补偿的准确度较差。

技术实现思路

[0004]本专利技术实施例提供一种音频丢包补偿处理方法、装置及电子设备，以提高语音恢复效果。
[0005]为了实现上述目的，本专利技术实施例提供了一种音频丢包补偿处理方法，包括：
[0006]在出现音频丢包的情况下，获取第一数量的已有音频帧的时域信号；
[0007]对该第一数...

【技术保护点】

【技术特征摘要】
1.一种音频丢包补偿处理方法，包括：在出现音频丢包的情况下，获取第一数量的已有音频帧的时域信号；对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征；对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达；根据所述声学特征和所述语义表达，预测当前音频帧的时域信号，用于音频丢包补偿。2.根据权利要求1所述的方法，其中，所述对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征包括：使用多个分支的一维卷积网络，对该第一数量的已有音频帧的时域信号进行声学特征提取，生成多个低维度的声学特征；对所述多个低维度的声学特征，进行聚合处理，生成所述已有音频帧的声学特征。3.根据权利要求2所述的方法，其中，对所述多个低维度的声学特征，进行聚合处理，生成所述已有音频帧的声学特征包括：对所述多个低维度的声学特征，通过注意力模块进行聚合，生成所述已有音频帧的声学特征。4.根据权利要求2所述的方法，其中，还包括：对预设数量的已有音频帧的声学特征进行缓存，用于后续音频帧的预测处理。5.根据权利要求1所述的方法，其中，对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达包括：使用一维卷积网络对所述对该第一数量的已有音频帧的时域信号进行语义特征提取，使用GRU网络基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的音素级别的语义表达。6.根据权利要求1所述的方法，其中，根据所述声学特征和所述语义表达，预测当前音频帧的时域信号包括：使用GRU网络根据所述声学特征和所述语义表达，预测当前音频帧的时域信号。7.根据权利要求6所述的方法，其中，所述GRU网络中采用稀疏化的模型参数。8.一种音频丢包补偿处理方法，包括：获取当前音频帧的时域信号和帧状态；如果所述帧状态为丢失状态，则使用音频预测模型，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测，将预测结果作为当前音频帧进行输出；如果所述帧状态为完好状态，则使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练，并更新所述音频预测模型，以及将处于完好状态的所述当前音频帧进行输出。9.根据权利要求8所述的方法，其中，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测包括：对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声
学特征；对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达；根据所述声学特征和所述语义表达，预测当前音频帧的时域信号。10.根据权利要求9所述的方法，其中，所述对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征包括：使用多个分支的一维卷积网络，对该第一数量的已有音频帧的时域信号进行声学特征提取，生成多个低维度的声学特征；对所述多个低维度的声学特征，进行聚合处理，生成所述已有音频帧的声学特征。11.根据权利要求9所述的方法，其中，对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达包括：使用一维卷积网络对所述对该第一数量的已有音频帧的时域信号进行语义特征提取，使用GRU网络基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的音素级别的语义表达。12.根据权利要求9所述的方法，其中，根据所述声学特征和所述语义表达，预测当前音频帧的时域信号包括：使用GRU网络根据所述声学特征和所述语义表达，预测当前音频帧的时域信号。13.根据权利要求9所述的方法，其中，使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练包括：将与所述当前音频帧连续的第一数量的已有音频帧的时域信号作为训练模型的输入，根据所述当前音频帧和所述训练模型的输出结果之间的差异，对所述音频预测模型的模型参数进行调整。14.根据权利要求9所述的方法，其中，使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模...

【专利技术属性】
技术研发人员：汤兴，宋琦，王立波，吴桂林，陈举锋，伍倡辉，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人