音频信号、图像处理的方法、装置和系统制造方法及图纸

技术编号:17518232 阅读:33 留言:0更新日期:2018-03-21 02:40
本发明专利技术提供了一种音频信号、图像处理的方法、装置和系统,通过本发明专利技术根据第一预设算法依据多个麦克采集的音频信号进行计算,得到待检测对象的第一预测位置;根据第二预设算法对待检测对象的历史位置进行滤波后计算,得到待检测对象的第二预测位置;结合第一预测位置和第二预测位置依据音频信号在时间上的连续性进行校正,得到待检测对象当前所在的位置,解决由于缺少对发言者的位置跟踪技术,导致在远程视频会议系统中无法及时显示发言者的位置以及跟踪获取发言者多媒体信息的问题,达到及时获取发言者的位置以及跟踪获取发言者多媒体信息效果。

Audio signal, method, device and system for image processing

The present invention provides an audio signal and image processing method, device and system of the invention, according to the first preset algorithm is calculated on the basis of a number of Mike acquisition of the audio signal, get the first predicted position of an object to be detected; according to the calculation of filter algorithm to detect object second preset historical position, get the object to be detected the second predicted position; combined with the first position and the second position on the basis of prediction prediction of audio signal in time continuity correction, get the current location of the object to be detected and resolved due to the lack of the location of the speaker tracking technology, to display the location of the speaker and get timely tracking information in multimedia speakers can remote video conferencing system in the speaker's position and timely access to multimedia information acquisition speaker tracking The effect of interest.

【技术实现步骤摘要】
音频信号、图像处理的方法、装置和系统
本专利技术涉及语音识别技术应用领域,具体而言,涉及一种音频信号、图像处理的方法、装置和系统。
技术介绍
随着视频通信技术的快速发展,远程会议电视业务日益兴起。在远程视频会议系统的使用过程中,如何依据发言人的声音通过设备进行定位并展示出来,成为了现在远程视频会议系统中待解决的问题。针对相关技术中由于缺少对发言者的位置跟踪技术,导致在远程视频会议系统中无法及时显示发言者的位置以及跟踪获取发言者多媒体信息的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种音频信号、图像处理的方法、装置和系统,以至少解决相关技术中由于缺少对发言者的位置跟踪技术,导致在远程视频会议系统中无法及时显示发言者的位置以及跟踪获取发言者多媒体信息的问题。根据本专利技术的一个实施例,提供了一种音频信号处理的方法,包括:根据第一预设算法依据多个麦克采集的音频信号进行计算,得到待检测对象的第一预测位置;根据第二预设算法对待检测对象的历史位置进行滤波后计算,得到待检测对象的第二预测位置;结合第一预测位置和第二预测位置依据音频信号在时间上的连续性进行校正,得到待检测对象当前所在的位置。可选的,根据第一预设算法依据多个麦克采集的音频信号进行计算,得到待检测对象的第一预测位置包括:将多个麦克进行分类,分为第一麦克阵列和第二麦克阵列;依据第一预设算法计算待检测对象与第一麦克阵列之间的第一夹角,以及依据第一预设算法计算待检测对象与第二麦克阵列之间的第二夹角;依据预设三角函数,通过第一夹角和第二夹角,计算得到待检测对象的第一预测位置。进一步地,可选的,依据第一预设算法计算待检测对象与第一麦克阵列之间的第一夹角包括:在第一预设算法为到达时间差算法TDOA的情况下,计算第一麦克阵列中各个麦克采集的音频信号之间的欧式距离;依据每个麦克采集的音频信号之间的欧式距离与第一夹角的关系进行计算,得到第一夹角的估计值集合;计算第一夹角的估计值集合的均值,并将均值确定为第一夹角。可选的,依据第一预设算法计算待检测对象与第二麦克阵列之间的第二夹角包括:在第一预设算法为到达时间差算法TDOA的情况下,计算第二麦克阵列中各个麦克采集的音频信号之间的欧式距离;依据每个麦克采集的音频信号之间的欧式距离与第二夹角的关系进行计算,得到第二夹角的估计值集合;计算第二夹角的估计值集合的均值,并将均值确定为第二夹角。可选的,根据第二预设算法对待检测对象的历史位置进行滤波后计算,得到待检测对象的第二预测位置包括:通过第一预设算法分别计算第一麦克阵列的第一预测角度的第一估计值集合,以及第二麦克阵列的第二预测角度的第二估计值集合;在第二预设算法为卡尔曼滤波算法的情况下,通过卡尔曼滤波算法分别判断第一估计值集合和第二估计值集合是否满足预设条件;依据判断结果确定第一夹角和第二夹角;依据预设三角函数,通过第一夹角和第二夹角进行计算,得到待检测对象的第二预测位置。进一步地,可选的,在得到待检测对象当前所在的位置之后,方法还包括:依据待检测对象当前所在的位置,更新卡尔曼滤波器参数。进一步地,可选的,在得到待检测对象当前所在的位置之后,方法还包括:增强待检测对象的语音输出。根据本专利技术的另一个实施例,提供了一种图像处理的方法,包括:通过预设麦克阵列获取第一麦克阵列与显示设备的图像采集设备的第一深度值,以及第二麦克阵列与显示设备的图像采集设备的第二深度值;分别计算第一深度值对应的第一麦克阵列与图像采集设备的第一类夹角,以及计算第二深度值对应的第二麦克阵列与图像采集设备的第二类夹角;依据第一深度值、第二深度值、第一类夹角和第二类夹角构建多维空间坐标系;获取待检测对象的位置,并依据多维空间坐标系确定待检测对象在多维空间坐标系中的位置。可选的,分别计算第一深度值对应的第一麦克阵列与图像采集设备的第一类夹角,以及计算第二深度值对应的第二麦克阵列与图像采集设备的第二类夹角包括:依据第一深度和第二深度与实际距离的预设条件,计算第一类夹角和第二类夹角。根据本专利技术的又一个实施例,提供了一种音频信号处理的装置,包括:第一计算模块,用于根据第一预设算法依据多个麦克采集的音频信号进行计算,得到待检测对象的第一预测位置;第二计算模块,用于根据第二预设算法对待检测对象的历史位置进行滤波后计算,得到待检测对象的第二预测位置;校正模块,用于结合第一预测位置和第二预测位置依据音频信号在时间上的连续性进行校正,得到待检测对象当前所在的位置。根据本专利技术的再一个实施例,提供了一种图像处理的装置,包括:通过预设麦克阵列获取第一麦克阵列与显示设备的图像采集设备的第一深度值,以及第二麦克阵列与显示设备的图像采集设备的第二深度值;计算模块,用于分别计算第一深度值对应的第一麦克阵列与图像采集设备的第一类夹角,以及计算第二深度值对应的第二麦克阵列与图像采集设备的第二类夹角;坐标空间模块,用于依据第一深度值、第二深度值、第一类夹角和第二类夹角构建多维空间坐标系;获取模块,用于获取待检测对象的位置,并依据多维空间坐标系确定待检测对象在多维空间坐标系中的位置。根据本专利技术的一个实施例,提供了一种语音、图像处理的系统,包括:视频会议终端、图像采集设备、深度图像采集设备、多个麦克阵列组成的声音采集模块和显示设备,其中,多个麦克阵列组成的声音采集模块,用于采集待检测对象的音频信号;图像采集设备,用于采集会场内所有视频图像;深度图像采集设备,用于采集会场内的深度图像,深度图像用于获取与会者与深度图像采集设备之间的位置信息;视频会议终端,用于跟踪与会者的位置,展示与会者在发言时的图像并进行会议记录。根据本专利技术的又一个实施例,还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码:根据第一预设算法依据多个麦克采集的音频信号进行计算,得到待检测对象的第一预测位置;根据第二预设算法对待检测对象的历史位置进行滤波后计算,得到待检测对象的第二预测位置;结合第一预测位置和第二预测位置依据音频信号在时间上的连续性进行校正,得到待检测对象当前所在的位置。可选地,存储介质还设置为存储用于执行以下步骤的程序代码:根据第一预设算法依据多个麦克采集的音频信号进行计算,得到待检测对象的第一预测位置包括:将多个麦克进行分类,分为第一麦克阵列和第二麦克阵列;依据第一预设算法计算待检测对象与第一麦克阵列之间的第一夹角,以及依据第一预设算法计算待检测对象与第二麦克阵列之间的第二夹角;依据预设三角函数,通过第一夹角和第二夹角,计算得到待检测对象的第一预测位置。进一步地,可选地,存储介质还设置为存储用于执行以下步骤的程序代码:依据第一预设算法计算待检测对象与第一麦克阵列之间的第一夹角包括:在第一预设算法为到达时间差算法TDOA的情况下,计算第一麦克阵列中各个麦克采集的音频信号之间的欧式距离;依据每个麦克采集的音频信号之间的欧式距离与第一夹角的关系进行计算,得到第一夹角的估计值集合;计算第一夹角的估计值集合的均值,并将均值确定为第一夹角。可选地,存储介质还设置为存储用于执行以下步骤的程序代码:依据第一预设算法计算待检测对象与第二麦克阵列之间的第二夹角包括:在第一预设算法为到达时间差算法TDOA的情况下,计算第二麦克阵列中各个麦克采集的音频信号之本文档来自技高网...
音频信号、图像处理的方法、装置和系统

【技术保护点】
一种音频信号处理的方法,其特征在于,包括:根据第一预设算法依据多个麦克采集的音频信号进行计算,得到待检测对象的第一预测位置;根据第二预设算法对所述待检测对象的历史位置进行滤波后计算,得到所述待检测对象的第二预测位置;结合所述第一预测位置和所述第二预测位置依据所述音频信号在时间上的连续性进行校正,得到所述待检测对象当前所在的位置。

【技术特征摘要】
1.一种音频信号处理的方法,其特征在于,包括:根据第一预设算法依据多个麦克采集的音频信号进行计算,得到待检测对象的第一预测位置;根据第二预设算法对所述待检测对象的历史位置进行滤波后计算,得到所述待检测对象的第二预测位置;结合所述第一预测位置和所述第二预测位置依据所述音频信号在时间上的连续性进行校正,得到所述待检测对象当前所在的位置。2.根据权利要求1所述的方法,其特征在于,所述根据第一预设算法依据多个麦克采集的音频信号进行计算,得到待检测对象的第一预测位置包括:将所述多个麦克进行分类,分为第一麦克阵列和第二麦克阵列;依据所述第一预设算法计算所述待检测对象与所述第一麦克阵列之间的第一夹角,以及依据所述第一预设算法计算所述待检测对象与所述第二麦克阵列之间的第二夹角;依据预设三角函数,通过所述第一夹角和所述第二夹角,计算得到所述待检测对象的第一预测位置。3.根据权利要求2所述的方法,其特征在于,所述依据所述第一预设算法计算所述待检测对象与所述第一麦克阵列之间的第一夹角包括:在所述第一预设算法为到达时间差算法TDOA的情况下,计算所述第一麦克阵列中各个麦克采集的音频信号之间的欧式距离;依据每个麦克采集的音频信号之间的所述欧式距离与所述第一夹角的关系进行计算,得到所述第一夹角的估计值集合;计算所述第一夹角的估计值集合的均值,并将所述均值确定为所述第一夹角。4.根据权利要求2所述的方法,其特征在于,所述依据所述第一预设算法计算所述待检测对象与所述第二麦克阵列之间的第二夹角包括:在所述第一预设算法为到达时间差算法TDOA的情况下,计算所述第二麦克阵列中各个麦克采集的音频信号之间的欧式距离;依据每个麦克采集的音频信号之间的所述欧式距离与所述第二夹角的关系进行计算,得到所述第二夹角的估计值集合;计算所述第二夹角的估计值集合的均值,并将所述均值确定为所述第二夹角。5.根据权利要求2所述的方法,其特征在于,所述根据第二预设算法对所述待检测对象的历史位置进行滤波后计算,得到所述待检测对象的第二预测位置包括:通过所述第一预设算法分别计算所述第一麦克阵列的第一预测角度的第一估计值集合,以及所述第二麦克阵列的第二预测角度的第二估计值集合;在所述第二预设算法为卡尔曼滤波算法的情况下,通过所述卡尔曼滤波算法分别判断所述第一估计值集合和所述第二估计值集合是否满足预设条件;依据判断结果确定所述第一夹角和所述第二夹角;依据预设三角函数,通过所述第一夹角和所述第二夹角进行计算,得到上述待检测对象的第二预测位置。6.根据权利要求5所述的方法,其特征在于,在得到所述待检测对象当前所在的位置之后,所述方法还包括:依据所述待检测对象当前所在的位置,更新卡尔曼滤波器参数。7.根据权利要求1至6中任一项所述的方法...

【专利技术属性】
技术研发人员:任志平
申请(专利权)人:南京中兴新软件有限责任公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1