一种基于麦克风阵列和立体视觉的集成传感器制造技术

技术编号：16532034 阅读：60 留言：0更新日期：2017-11-10 00:58

本发明专利技术公开了一种基于麦克风阵列和立体视觉的集成传感器，包括硬件系统和控制系统；硬件系统包括麦克风阵列、立体视觉装置，麦克风阵列负责接收环境中声音信息并生成多路模拟音频；立体视觉装置负责采集环境图像。控制系统工作包括音频工作区、视频工作区和视频音频合成工作区，音频处理区负责音频去噪和声源定位、声源追踪(通过音频处理)；视频处理区负责定位、追踪目标声源，即通过图像处理和图像识别对目标声源进行校准定位和精准追踪；视频音频合成区负责对音频信号增强(提高音频信号信噪比)和获取并输出视频音频信号的融合信号。

An integrated sensor based on microphone array and stereo vision

The invention discloses a microphone array and the stereo vision sensor based on integration, including hardware system and control system; hardware system includes a microphone array, stereo vision device, microphone array is responsible for receiving environment sound information and generate multi-channel analog audio; stereo vision device is responsible for collecting environmental image. The control system includes an audio video work area, work area and work area of video and audio synthesis, audio processing for audio denoising and sound source localization, sound source tracking (via audio processing); video processing area is responsible for locating and tracking the target sound source, by means of image processing and image recognition of target sound source localization and calibration accurate tracking; video and audio synthesis area responsible for the enhancement of the audio signal (audio signal to improve the SNR gain and signal output) and the integration of video and audio signals.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于麦克风阵列和立体视觉的集成传感器
本专利技术主要涉及一种基于麦克风阵列和立体视觉的集成传感器，特别是涉及一种基于麦克风阵列和立体视觉的声源定位追踪技术，属于集成传感器领域。
技术介绍
在当今时代，要记录事件、场景等，音频和视频无疑是还原度最高的方式；随着互联网技术的飞速发展，人与人之间的交流越来越多的通过网络进行，比如说视频会议。然而，面对复杂的声场环境，声源位置的不可预估，传统的音频采集、视频录制方式面临重大考验。声场中不仅包含目标声源，还包括其它干扰声源；因此，采集的声音中不仅有目标声源的声音，还有环境噪声、声音的回声等，而传统音频录制方式对所有声音统一对待，不能有效提高信噪比(即削弱干扰声音)；而传统的视频录制方式中，摄像装置不能自主调整录制方向，需要摄影师手动调节，这不仅是一个技术活，还是一个体力活。在世界范围内，各国科研单位、高校、社会爱好者等对机器人、智能车及人工智能相关领域的研究逐渐加深，普及；传感器的模块化、集成化，算法的简化(高效)在人工智能产品的实现过程中起重要作用；而视觉和听觉作为获取环境信息的基本方式，在机器人和智能车获取环境信息上...
一种基于麦克风阵列和立体视觉的集成传感器

【技术保护点】
一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，包括硬件系统和控制系统；硬件系统包括：麦克风阵列，采集环境中的音频信息，生成多路模拟音频信号si(t)，并输送至音频工作区；立体视觉装置，由云台和摄像装置构成，摄像装置位于云台上中心位置，所述麦克风阵列以摄像装置为中心排布在云台上；摄像装置可以采集环境图像并传送到所述视频工作区中；云台可以接收视频工作区的控制指令进行横摆、俯仰转动操作；同时立体视觉装置可以将自身当前状态的参数发送给视频工作区；控制系统包括：音频工作区，对输入的多路模拟音频信号si(t)进行音频去噪和声源定位、声源追踪处理，得到声源大致坐标、声源最优方向和多路去噪数字音频信号...

【技术特征摘要】
1.一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，包括硬件系统和控制系统；硬件系统包括：麦克风阵列，采集环境中的音频信息，生成多路模拟音频信号si(t)，并输送至音频工作区；立体视觉装置，由云台和摄像装置构成，摄像装置位于云台上中心位置，所述麦克风阵列以摄像装置为中心排布在云台上；摄像装置可以采集环境图像并传送到所述视频工作区中；云台可以接收视频工作区的控制指令进行横摆、俯仰转动操作；同时立体视觉装置可以将自身当前状态的参数发送给视频工作区；控制系统包括：音频工作区，对输入的多路模拟音频信号si(t)进行音频去噪和声源定位、声源追踪处理，得到声源大致坐标、声源最优方向和多路去噪数字音频信号；将声源大致坐标和声源最优方向输入到视频工作区，将声源大致坐标、声源最优方向和多路去噪数字音频信号输入到视频音频合成工作区；视频工作区，根据输入的声源大致坐标和声源最优方向提取有效图像，经图像处理和图像识别，实现音频辅助图像校准定位和音频辅助图像精准追踪；亦可单独进行图像追踪；视频音频合成工作区，从音频工作区获取多路音频并加权生成增强音频信号，从视频工作区获取视频信号，将按时间序列合成并输出视频音频信号的融合信号。2.如权利要求1所述的一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，所述音频工作区包括：音频采集模块，将接收到的麦克风阵列采集的多路模拟音频信号si(t)进行模数转换得到数字音频信号si(k)后输入到音频缓冲区Ⅰ；音频缓冲区Ⅰ，暂存来自音频采集模块的数字音频信号si(k)；音频去噪模块，从音频缓冲区Ⅰ读取上一时刻内存入的数字音频信号si(k)，然后依次通过滤波、加窗、谱减、倒谱操作对数字音频信号si(k)进行去噪，得到去噪音频音频信号xi(k)并分别输入到音频追踪定位模块和视频音频合成工作区；音频追踪定位模块，对输入的去噪音频信号xi(k)使用广义互相关时延估计算法进行声源定位，得到声源大致坐标，将声源大致坐标发送给视频工作区；使用空间谱估计算法进行声源追踪，得到连续时刻内的最优方向，将最优方向分别发送给视频工作区和音频视频合成工作区。3.如权利要求2所述的一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，所述音频追踪定位模块使用空间谱估计算法进行声源追踪，是通过空间谱估计算法进行空间能量扫描，获取空间中能量最大的方向将其视为声源在t时长内的最优方向，具体过程如下：1)声源经过定位然后进行声源追踪，以摄像装置为中心构建坐标系，当立体视觉装置云台平面指向声源时有其中，为声源偏移坐标，追踪声源时，云台只需转动消去偏移坐标即可追踪声源；2)令θ∈[θ1,θ2]，θ分别以Δθ的变化量进行能量扫描，为设定的的预估范围，θ1、θ2为设定的θ的预估范围且θ1<θ2；其中的预估范围即声源必定出现的最小范围，与θ1、θ2具体大小可根据物体移动速度、方向进行调节；3)选取初始方向以的方向通过空间谱估计算法进行能量计算，得到此时音频信号的能量P00；其中，4)以四个方向进行能量计算，得到能量E01、E02、E03、E04；5)比较P00～04，五个值大小：①若E00最大，则令Emax＝E00，并保存Emax和它表示的方向，即令②若E01～04中某一个最大，则将其赋给E10，并将此时的方向坐标赋给然后重复进行上述步骤4)、步骤5)；若存在En0≥max{En1,En2,En3,En4}，则令Emax＝En0，并保存Emax和它表示的方向，即令其中，θn0∈[θ1,θ2]；③若En0<max{En1,En2,En3,En4}恒成立，则重复执上述步骤4)、步骤5)操作，直至中某一个方向不在θ∈[θ1,θ2]内，即或或θn0+Δθ)>θ2或θn0-Δθ)<θ1,记录此时能量En0，然后将其赋...

【专利技术属性】
技术研发人员：王建华，丁录国，赵洁，何珺，王新群，陈宇彬，周乃鹏，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林,22

全部详细技术资料下载我是这个专利的主人