多通道影音联动装置制造方法及图纸

技术编号:19908722 阅读:47 留言:0更新日期:2018-12-26 04:38
本发明专利技术提供了多通道影音联动装置,涉及智能化边缘计算装置的技术领域,包括相连的多镜头模组、云台摄像机、多麦克风装置、智能识别AI芯片和集成电路芯片;集成电路芯片包括影音联动模块,影音联动模块通过物体采集队列与多图像处理模块相连,通过音频采集队列与麦克风阵列模块相连,通过识别队列与多图拼接模块相连;多镜头模组和云台摄像机与多图像处理模块相连,多麦克风装置与麦克风阵列模块相连;智能识别AI芯片通过音视频接口与多图像处理模块和麦克风阵列模块相连。本发明专利技术利用集成电路芯片可以增加影音联动功能组合的灵活性,提高影音联动响应速度,利用多图拼接模块可以降低网络传输流量和开发成本、减少延时、降低功耗和产品体积。

【技术实现步骤摘要】
多通道影音联动装置
本专利技术涉及智能化边缘计算装置的
,尤其是涉及多通道影音联动装置。
技术介绍
影音联动就是“见图循音”和“闻声观影”的视觉与声觉交互感知的概念。前者是根据识别的物体或行人,快速定向该物体的发声坐标并采集音频数据;后者是根据发声方向,快速判断定位发声来源,并同步采集发声源的图像数据。一般而言,影音联动装置均采用独立的多台摄像机和多台麦克风装置,通过音视频接口连接到路由集成装置上同步打包后,输出至PC(PersonalComputer,个人计算机)或服务器端计算展示,或通过以太网发布到云端执行智能识别与存储。但是,现有方案存在如下缺点:实时响应性差、功耗大、实现成本高、体积大、支撑开发环境复杂、很难成为物联网的传感单元、不利于影音联动应用的普及。
技术实现思路
有鉴于此,本专利技术的目的在于提供前置多通道影音联动装置,以提高影音联动的响应速度,迅速实现图像和音频识别的联动反应,通过全局与局部图像及识别物体的对照展示,降低网络传输流量和开发成本、减少延时、降低功耗和产品体积。第一方面,本专利技术实施例提供了一种多通道影音联动装置,其中,所述装置包括相连接的多镜头模组、云台摄像机、多麦克风装置、智能识别AI芯片和集成电路芯片。所述集成电路芯片包括:影音联动模块,所述影音联动模块通过物体采集队列与多图像处理模块相连,通过音频采集队列与麦克风阵列模块相连,通过识别队列与多图拼接模块相连,且所述多镜头模组和所述云台摄像机与所述多图像处理模块相连,所述多麦克风装置与所述麦克风阵列模块相连,所述智能识别AI芯片通过音视频接口与所述多图像处理模块和所述麦克风阵列模块相连。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,当所述装置执行以音定影任务时:所述多图像处理模块,用于通过所述多镜头模组采集多通道的第一原始图像,并对所述第一原始图像执行处理后,生成第一全景拼接图像;所述麦克风阵列模块,用于通过所述多麦克风装置实时采集全空域的音频信号,对所述音频信号中满足预设音频阈值条件的声源启动远场与定向功能,创建第一声源对象,并将所述第一声源对象赋值第一声源检测参数后,存入所述音频采集队列,其中,所述第一声源检测参数包括第一声源方位坐标;所述影音联动模块,用于从所述音频采集队列中获取第一声源对象和所述第一声源检测参数,触发所述云台摄像机对准所述第一声源方位坐标并采集第一声源对应的第一局部云台图像,以及在所述第一全景拼接图像中截取所述第一声源方位坐标处的第一声源物体识别图像,将所述第一声源物体识别图像赋值到第一声源对象中并保存入所述识别队列;所述多图拼接模块,用于对所述第一全景拼接图像和所述第一局部云台图像分别标注声源位置后,将标注有所述声源位置的所述第一全景拼接图像和/或所述第一局部云台图像和/或所述识别队列中的所述第一声源物体识别图像进行组合拼接后,并与所述第一声源检测参数共同编码输出。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述麦克风阵列模块,用于根据所述远场与定向功能确定所述第一声源对象的准方位坐标,并通过连续采集所述第一声源对象的音频,对所述准方位坐标进行迭代校准,得到所述第一声源方位坐标。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,当所述装置执行以影定音任务时:所述多图像处理模块,用于通过所述多镜头模组采集多通道的第二原始图像,并对所述第二原始图像执行处理后,生成第二全景拼接图像,并根据预设方式在所述第二全景拼接图像上识别声源物体后,创建第二声源对象,将所述第二声源对象赋值图像检测参数后存入所述物体采集队列;所述麦克风阵列模块,用于依次从所述物体采集队列中获取所述第二声源对象和所述图像检测参数,并开启远场与定向功能,通过迭代计算确定所述第二声源对象校准后的第二声源方位坐标,将所述第二声源方位坐标存入第二声源对象中;所述影音联动模块,用于从所述物体采集队列中获取存有第二声源方为坐标的第二声源对象,触发所述外部云台摄像机对准所述第二声源方位坐标并采集所述第二声源对象对应的第二局部云台图像,以及在所述第二声源方位坐标处截取的第二物体识别图像,将所述第二物体识别图像赋值到所述第二声源对象中并存所述入识别队列;所述多图拼接模块,用于对所述第二全景拼接图像和所述第二局部云台图像分别标注声源位置后,将标注有声源位置的所述第二全景拼接图像和/或所述第二局部云台图像和/或识别队列中的第二物体识别图像进行组合拼接后,与所述图像检测参数共同编码输出。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述多图像处理模块包括相连的图像采集单元、ISP单元、畸变矫正单元和全景拼接单元;所述图像采集单元,用于通过连接所述多镜头模组采集多个所述第二原始图像;所述ISP单元,用于对所述第二原始图像进行图像信号处理,得到处理后的图像信息;所述畸变矫正单元,用于对所述处理后的图像信息进行畸变矫正与图像映射变换处理,得到对齐的实景图像;所述全景拼接单元,用于对多个所述实景图像进行拼接和全局调整,得到所述第二全景拼接图像。结合第一方面,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,所述预设方式包括人工的坐标指定方式;所述人工的坐标指定方式为:通过触摸板或鼠标操作,在所述第二全景拼接图像上确定声源物体,截取物体图像和声源物体坐标,创建所述第二声源对象。结合第一方面,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,所述预设方式包括自动的图像识别方式;所述自动的图像识别方式为:所述智能识别AI芯片包括图像识别模块,所述图像识别模块在所述第二全景拼接图像上识别满足预设物体阈值的对象物体,当所述对象物体为多个时,根据预设物体阈值的参数将所述对象物体进行排序,确定所述声源对象。结合第一方面,本专利技术实施例提供了第一方面的第七种可能的实施方式,其中,所述装置包括智能识别AI芯片,所述智能识别AI芯片包括音频识别模块;所述音频识别模块,用于对所述第一声源对象进行音频识别,确定所述第一声源监测参数。结合第一方面,本专利技术实施例提供了第一方面的第八种可能的实施方式,其中,所述装置包括智能识别AI芯片,所述智能识别AI芯片包括图像识别模块;所述图像识别模块,用于对所述第二声源对象进行图像识别,确定所述图像检测参数。结合第一方面,本专利技术实施例提供了第一方面的第九种可能的实施方式,其中,所述多镜头模组包括多个镜头/传感器,所述麦克风阵列模块包括多架麦克风装置,且所述多麦克风装置按照多个所述镜头/传感器方向进行分布安装。本专利技术实施例带来了以下有益效果:本专利技术提供的多通道影音联动装置,包括相连接的多镜头模组、云台摄像机、智能识别AI芯片和集成电路芯片;集成电路芯片包括:影音联动模块,影音联动模块通过物体采集队列与多图像处理模块相连,通过音频采集队列与麦克风阵列模块相连,通过识别队列与多图拼接模块相连;多镜头模组和云台摄像机与多图像处理模块相连,智能识别AI芯片通过音视频接口与多图像处理模块和麦克风阵列模块相连。本专利技术主要通过集成电路芯片执行以音定影和以影定音的任务,将影音联动模块、多图像处理模块、麦克风阵列模块和多图拼接模块集成于集成电路芯片中,可以增加影音本文档来自技高网...

【技术保护点】
1.一种多通道影音联动装置,其特征在于,所述装置包括相连接的多镜头模组、云台摄像机、多麦克风装置、智能识别AI芯片和集成电路芯片;所述集成电路芯片包括:影音联动模块,所述影音联动模块通过物体采集队列与多图像处理模块相连,通过音频采集队列与麦克风阵列模块相连,通过识别队列与多图拼接模块相连,且所述多镜头模组和所述云台摄像机与所述多图像处理模块相连,所述多麦克风装置与所述麦克风阵列模块相连,所述智能识别AI芯片通过音视频接口与所述多图像处理模块和所述麦克风阵列模块相连。

【技术特征摘要】
1.一种多通道影音联动装置,其特征在于,所述装置包括相连接的多镜头模组、云台摄像机、多麦克风装置、智能识别AI芯片和集成电路芯片;所述集成电路芯片包括:影音联动模块,所述影音联动模块通过物体采集队列与多图像处理模块相连,通过音频采集队列与麦克风阵列模块相连,通过识别队列与多图拼接模块相连,且所述多镜头模组和所述云台摄像机与所述多图像处理模块相连,所述多麦克风装置与所述麦克风阵列模块相连,所述智能识别AI芯片通过音视频接口与所述多图像处理模块和所述麦克风阵列模块相连。2.根据权利要求1所述的装置,其特征在于,当所述装置执行以音定影任务时:所述多图像处理模块,用于通过所述多镜头模组采集多通道的第一原始图像,并对所述第一原始图像执行处理后,生成第一全景拼接图像;所述麦克风阵列模块,用于通过所述多麦克风装置实时采集全空域的音频信号,对所述音频信号中满足预设音频阈值条件的声源启动远场与定向功能,创建第一声源对象,并将所述第一声源对象赋值第一声源检测参数后,存入所述音频采集队列,其中,所述第一声源检测参数包括第一声源方位坐标;所述影音联动模块,用于从所述音频采集队列中获取第一声源对象和所述第一声源检测参数,触发所述云台摄像机对准所述第一声源方位坐标并采集第一声源对应的第一局部云台图像,以及在所述第一全景拼接图像中截取所述第一声源方位坐标处的第一声源物体识别图像,将所述第一声源物体识别图像赋值到第一声源对象中并保存入所述识别队列;所述多图拼接模块,用于对所述第一全景拼接图像和所述第一局部云台图像分别标注声源位置后,将标注有所述声源位置的所述第一全景拼接图像和/或所述第一局部云台图像和/或所述识别队列中的所述第一声源物体识别图像进行组合拼接后,并与所述第一声源检测参数共同编码输出。3.根据权利要求2所述的装置,其特征在于,所述麦克风阵列模块,用于根据所述远场与定向功能确定所述第一声源对象的准方位坐标,并通过连续采集所述第一声源对象的音频,对所述准方位坐标进行迭代校准,得到所述第一声源方位坐标。4.根据权利要求1所述的装置,其特征在于,当所述装置执行以影定音任务时:所述多图像处理模块,用于通过所述多镜头模组采集多通道的第二原始图像,并对所述第二原始图像执行处理后,生成第二全景拼接图像,并根据预设方式在所述第二全景拼接图像上识别声源物体后,创建第二声源对象,将所述第二声源对象赋值图像检测参数后存入所述物体采集队列;所述麦克风阵列模块,用于依次从所述物体采集队列中获取所述第二声源...

【专利技术属性】
技术研发人员:于燕斌张燕生林振雷胡志建
申请(专利权)人:广州市盛光微电子有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1