基于人工智能的音频处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30425345 阅读:30 留言:0更新日期:2021-10-24 16:57
本申请提供了一种基于人工智能的音频处理方法、装置、电子设备及计算机可读存储介质;涉及云技术和人工智能技术;方法包括:获取音频场景的音频片段,其中,音频片段中包括噪声;基于音频片段执行音频场景分类处理,以得到与音频片段中的噪声对应的音频场景类型;确定与音频场景类型匹配的目标音频处理模式,并对音频场景的音频片段应用目标音频处理模式。通过本申请,能够基于音频场景的针对性的音频处理,提高音频质量。提高音频质量。提高音频质量。

【技术实现步骤摘要】
基于人工智能的音频处理方法、装置、电子设备及存储介质


[0001]本申请涉及云技术和人工智能技术,尤其涉及一种基于人工智能的音频处 理方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通 过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的 功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术 以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多 的领域得到应用,并发挥越来越重要的价值。例如,在基于云技术的网络会议 场景中,引入人工智能技术以提升音频质量。
[0003]然而,相关技术中对于音频的处理方式比较单一,这虽然会对音频中的噪 声形成抑制效果,但不可避免地也降低音频中的有用信号(例如语音信号)的 质量。

技术实现思路

[0004]本申请实施例提供一种基于人工智能的音频处理方法、装置、电子设备及 计算机可读存储介质,能够基于音频场景的针对性的音频处理,提高音频质本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的音频处理方法,其特征在于,所述方法包括:获取音频场景的音频片段,其中,所述音频片段中包括噪声;基于所述音频片段执行音频场景分类处理,以得到与所述音频片段中的噪声对应的音频场景类型;确定与所述音频场景类型匹配的目标音频处理模式,并对所述音频场景的音频片段应用所述目标音频处理模式。2.根据权利要求1所述的方法,其特征在于,所述目标音频处理模式包括降噪处理模式;所述确定与所述音频场景类型匹配的目标音频处理模式,包括:基于所述音频场景对应的音频场景类型,查询不同音频场景类型与候选降噪处理模式的对应关系,将查询到的候选降噪处理模式作为与所述音频场景类型匹配的降噪处理模式,或者基于所述音频场景对应的音频场景类型,确定与所述音频场景类型匹配的噪声;基于所述与所述音频场景类型匹配的噪声,查询不同噪声与所述候选降噪处理模式的对应关系,将查询到的候选降噪处理模式作为与所述音频场景类型匹配的降噪处理模式;其中,不同的所述音频场景所包括的噪声的类型不完全相同。3.根据权利要求2所述的方法,其特征在于,所述对所述音频场景的音频片段应用所述目标音频处理模式之前,所述方法还包括:检测所述音频片段中的噪声所带来的干扰度;当检测到的所述干扰度大于干扰度阈值时,确定将对所述音频场景的音频片段应用与所述音频场景类型匹配的降噪处理模式。4.根据权利要求2所述的方法,其特征在于,所述对所述音频场景的音频片段应用所述目标音频处理模式,包括:基于所述音频场景类型所包括的噪声类型,对所述音频片段中的噪声进行匹配,将匹配到的噪声进行抑制处理,以使所述音频片段的语音信号强度与噪声信号强度的比值低于信噪比阈值。5.根据权利要求1所述的方法,其特征在于,所述目标音频处理模式包括码率切换处理模式;所述确定与所述音频场景类型匹配的目标音频处理模式,包括:基于所述音频场景对应的音频场景类型,查询不同音频场景类型与候选码率切换处理模式的对应关系,将查询到的候选码率切换处理模式作为与所述音频场景类型匹配的码率切换处理模式;或者将所述音频场景类型与需要进行码率切换的预设音频场景类型比对;当比对确定所述音频场景类型属于需要进行码率切换的预设音频场景类型时,将与所述预设音频场景类型关联的码率切换处理模式,确定为与所述音频场景类型匹配的码率切换处理模式。6.根据权利要求5所述的方法,其特征在于,所述对所述音频场景的音频片段应用所述目标音频处理模式,包括:获取所述音频场景的通信信号强度;当所述音频场景的通信信号强度小于通信信号强度阈值时,按照预设比例或预设值降
低所述音频片段的音频码率;当所述音频场景的通信信号强度大于或者等于所述通信信号强度阈值时,按照预设比例或预设值提升所述音频片段的音频码率。7.根据权利要求5所述的方法,其特征在于,所述对所述音频场景的音频片段应用所述目标音频处理模式,包括:基于在所述音频场景中多次采样得到的通信信号强度,确定所述音频场景中的通信信号强度的抖动变化情况;当所述抖动变化情况表征所述通信信号呈现不稳定的状态时,按照预设比例或预设值降低所述音频片段的音频码率。8.根据权利要求5所述的方法,其特征在于,所述对所述音频场景的音频片段应用所述目标音频处理模式,包括:当用于传输所述音频片段的通信网络的类型属于设定类型时,按照预设比例或预设值降低所述音频片段的音频码率。9.根据权利要求1所述的方法,其特征在于,所述音频场景分类处理是通过神经网络模型实现的,所述神经网络模型学习到所述音频片段中所包括的噪声与所述音频场景类型的关联关系;所述基于所述音频片段执行音频场景分类处理,以得到与所述音频片段中的噪声对应的音频场景类型,包括:基于所述音频片段调用所述神经网络模型以执行音频场景分类处理,得到与所述音频片段中所包括的噪声存在关联关系的音频场景类型。10.根据权利要求9所述的方法,其特征在于,所述神经网络模型包括映射网络、残差网络以及池化网络;所述基于所述音频片段调用所述神经网络模型以执行音频场景分类处理,包括:通过所述映射网络对所述音频片段进行特征提取处理,得到所述音频片段中噪声的第一特征向量;通过所述残差网络对所述第一特征向量进行映射处理,得到所述音频片段的映射向量;通过所述映射网络对所述音频片段的映射向量进行特征提取处理,得...

【专利技术属性】
技术研发人员:吴雯夏咸军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1