音频处理方法、电子设备及存储介质技术

技术编号:36426200 阅读:15 留言:0更新日期:2023-01-20 22:36
本申请涉及一种音频处理方法、电子设备及介质,属于音频处理技术领域,该方法包括:使用图像采集组件采集的图像得到目标声源的第一位置信息;基于音频采集组件生成声像图得到各个声源与音频采集组件之间的各个相对位置关系;使用第一位置信息在各个相对位置关系中确定目标声源与音频采集组件之间的目标相对位置关系;基于目标相对位置关系确定目标声源的目标波束和音量增益;使用音量增益调节按照目标波束采集的音频数据的音频音量。即使在会场内存在噪声、回声、混响等干扰因素,也能够获取目标声源的准确位置信息,并针对目标声源设置目标波束和音量增益,从而使目标声源之间的音量不会相差过大,可以使得各个目标声源的音频音量一致。音量一致。音量一致。

【技术实现步骤摘要】
音频处理方法、电子设备及存储介质


[0001]本申请涉及一种音频处理方法、电子设备及存储介质,属于音频处理


技术介绍

[0002]在进行远程会议时,需要使用会议终端连通不同的会场,会议终端通常具有用于采集声音的传感器。会场内不可避免地会存在噪声、回声、混响等干扰因素,严重影响传入另一个会场的声音的效果,干扰会议正常进行。
[0003]现有的会议终端通过传感器设置正对与会者的固定波束,只采集波束内的声音,减少波束外声音的干扰,进而减弱会场内的干扰因素的影响。
[0004]然而,由于每个与会者的声音大小不一样,且每个与会者与传感器的距离也不一样,因此会导致与会者之间声音相差较大的问题。

技术实现思路

[0005]本申请提供了一种音频处理方法、电子设备及存储介质,可以由于每个与会者的声音大小不一样,且每个与会者与传感器的距离也不一样,因此会导致与会者之间声音相差较大的问题。本申请提供如下技术方案:
[0006]第一方面,提供一种音频处理方法,所述方法包括:
[0007]对图像采集组件在会议场景内采集的图像进行图像识别,得到目标声源的第一位置信息;
[0008]基于音频采集组件采集的音频信号生成声像图,所述声像图用于指示所述会议场景内各个声源与音频采集组件之间的各个相对位置关系;
[0009]使用所述第一位置信息在各个相对位置关系中确定所述目标声源与所述音频采集组件之间的目标相对位置关系;
[0010]基于所述目标相对位置关系确定所述目标声源的目标波束和音量增益,其中,所述音量增益与所述目标相对位置关系指示的距离呈正相关关系;
[0011]使用所述音量增益调节按照所述目标波束采集的音频数据的音频音量。
[0012]可选地,所述第一位置信息包括目标方位和目标距离,所述目标方位包括水平角方位和垂直角方位;
[0013]所述对图像采集组件在会议场景内采集的图像进行图像识别,得到目标声源的第一位置信息,包括:
[0014]对所述图像进行人脸检测,得到人脸像素高度和人脸中心点坐标;
[0015]获取所述图像采集组件的屏幕像素尺寸、屏幕中心点坐标、水平视场角、垂直视场角和人脸真实高度,所述屏幕像素尺寸包括水平尺寸和垂直尺寸;
[0016]获取所述人脸中心点坐标与屏幕中心点坐标之间的水平距离和垂直距离;
[0017]使用所述水平尺寸、所述水平距离和所述水平视场角得到所述人脸中心点坐标与所述图像采集组件之间的水平角方位;
[0018]使用所述垂直尺寸、所述垂直距离和所述垂直视场角得到所述人脸中心点坐标与所述图像采集组件之间的垂直角方位;
[0019]使用所述垂直尺寸和所述垂直视场角得到焦距;
[0020]使用所述焦距、所述人脸真实高度和所述人脸像素高度得到目标距离。
[0021]可选地,所述声像图包括各个声源的音频峰值,所述音频峰值的位置用于指示所述各个相对位置关系;所述使用所述第一位置信息在各个相对位置关系中确定所述目标声源与所述音频采集组件之间的目标相对位置关系,包括:
[0022]获取所述第一位置信息对应在所述声像图中的第二位置信息;
[0023]在所述声像图的各个音频峰值中确定各个相对位置关系与所述第二位置信息不匹配的虚假音频峰值;
[0024]在所述声像图的音频峰值中删除所述虚假音频峰值,得到删除后的各个音频峰值指示的目标相对位置关系。
[0025]可选地,所述第二位置信息包括所述音频采集组件和所述目标声源之间的第一距离和第一方位,所述各个相对位置关系包括第二距离和第二方位;
[0026]所述在所述声像图的各个音频峰值中确定各个相对位置关系与所述第二位置信息不匹配的虚假音频峰值,包括:
[0027]在所述声像图的各个音频峰值中,获取第二距离与第一距离之间的距离差值,
[0028]确定所述第二方位与第一方位不匹配、和/或所述距离差值大于预设距离阈值的所述虚假音频峰值。
[0029]可选地,所述在所述声像图的各个音频峰值中确定各个相对位置关系与所述第二位置信息不匹配的虚假音频峰值,包括:
[0030]在所述声像图中的音频峰值的数量大于或等于目标声源的数量的情况下,在所述声像图的各个音频峰值中确定相对位置关系与所述第二位置信息不匹配的虚假音频峰值。
[0031]可选地,所述基于所述目标相对位置关系,确定所述目标声源的音量增益,包括:
[0032]使用所述目标相对位置关系指示的最大距离和最小距离确定中间距离;
[0033]获取所述中间距离对应的标准音量增益;
[0034]基于每个目标声源与中间距离之间的差异,确定每个目标声源的音量增益与所述标准音量增益之间的增益差异;
[0035]基于所述标准音量增益和所述增益差异确定每个目标声源的音量增益。
[0036]可选地,所述基于所述目标相对位置关系,确定所述目标声源的音量增益,包括:
[0037]基于所述目标相对位置关系,确定所述目标声源的第一增益值,其中,所述第一增益值与所述目标相对位置关系指示的距离呈正相关关系;
[0038]确定按照所述第一增益值调节所述音频数据得到的音频音量与预设标准音量之间的音量差异;
[0039]使用所述音量差异确定目标声源的第二增益值;
[0040]基于所述第一增益值和所述第二增益值确定所述目标声源的音量增益。
[0041]可选地,所述方法包括:
[0042]确定所述目标声源是否满足预设的音量调节条件;所述音量调节条件包括以下几种中的至少一种:所述目标声源处于发言状态;所述目标声源为主讲人;所述目标声源为与
所述主讲人互动的与会者;
[0043]在所述目标声源满足所述音量调节条件的情况下,触发执行所述使用所述音量增益调节按照所述目标波束采集的音频数据的音量的步骤。
[0044]可选地,所述方法还包括:
[0045]在所述目标声源不满足所述音量调节条件的情况下,若所述音频数据的音量大于或等于预设音量阈值,则对所述音频数据的音频音量进行抑制。
[0046]第二方面,提供一种电子设备,所述电子设备包括处理器和与所述处理器相连的存储器,所述存储器中存储有程序,所述处理器执行所述程序时用于实现第一方面提供的音频处理方法。
[0047]第三方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序被处理器执行时用于实现第一方面提供的音频处理方法。
[0048]本申请的有益效果至少包括:通过对图像采集组件在会议场景内采集的图像进行图像识别,得到目标声源的第一位置信息;基于音频采集组件采集的音频信号生成声像图,声像图用于指示会议场景内各个声源与音频采集组件之间的各个相对位置关系;使用第一位置信息在各个相对位置关系中确定目标声源与音频采集组件之间的目标相对位置关系;基于目标相对位置关系确定目标声源的目标波束本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:对图像采集组件在会议场景内采集的图像进行图像识别,得到目标声源的第一位置信息;基于音频采集组件采集的音频信号生成声像图,所述声像图用于指示所述会议场景内各个声源与音频采集组件之间的各个相对位置关系;使用所述第一位置信息在各个相对位置关系中确定所述目标声源与所述音频采集组件之间的目标相对位置关系;基于所述目标相对位置关系确定所述目标声源的目标波束和音量增益,其中,所述音量增益与所述目标相对位置关系指示的距离呈正相关关系;使用所述音量增益调节按照所述目标波束采集的音频数据的音频音量。2.根据权利要求1所述的方法,其特征在于,所述第一位置信息包括目标方位和目标距离,所述目标方位包括水平角方位和垂直角方位;所述对图像采集组件在会议场景内采集的图像进行图像识别,得到目标声源的第一位置信息,包括:对所述图像进行人脸检测,得到人脸像素高度和人脸中心点坐标;获取所述图像采集组件的屏幕像素尺寸、屏幕中心点坐标、水平视场角、垂直视场角和人脸真实高度,所述屏幕像素尺寸包括水平尺寸和垂直尺寸;获取所述人脸中心点坐标与屏幕中心点坐标之间的水平距离和垂直距离;使用所述水平尺寸、所述水平距离和所述水平视场角得到所述人脸中心点坐标与所述图像采集组件之间的水平角方位;使用所述垂直尺寸、所述垂直距离和所述垂直视场角得到所述人脸中心点坐标与所述图像采集组件之间的垂直角方位;使用所述垂直尺寸和所述垂直视场角得到焦距;使用所述焦距、所述人脸真实高度和所述人脸像素高度得到目标距离。3.根据权利要求1所述的方法,其特征在于,所述声像图包括各个声源的音频峰值,所述音频峰值的位置用于指示所述各个相对位置关系;所述使用所述第一位置信息在各个相对位置关系中确定所述目标声源与所述音频采集组件之间的目标相对位置关系,包括:获取所述第一位置信息对应在所述声像图中的第二位置信息;在所述声像图的各个音频峰值中确定各个相对位置关系与所述第二位置信息不匹配的虚假音频峰值;在所述声像图的音频峰值中删除所述虚假音频峰值,得到删除后的各个音频峰值指示的目标相对位置关系。4.根据权利要求3所述的方法,其特征在于,所述第二位置信息包括所述音频采集组件和所述目标声源之间的第一距离和第一方位,所述各个相对位置关系包括第二距离和第二方位;所述在所述声像图的各个音频峰值中确定各个相对位置关系与所述第二位置信息不匹配的虚假音频峰值,包括:在所述声像图的各个音频峰值中,获...

【专利技术属性】
技术研发人员:凌宏强张洪伟徐家喜
申请(专利权)人:苏州科达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1