一种基于视觉与声音融合的可交互的会议装置制造方法及图纸

技术编号:28445181 阅读:12 留言:0更新日期:2021-05-15 21:05
本实用新型专利技术公开一种基于视觉与声音融合的可交互的会议装置,包括音箱;本实用新型专利技术通过麦克风阵列采集多路音频定位讲话人方位角,对应角度映射到全景画面检测人脸规避噪声干扰,切换画面,精确呈现主讲人,预览会议环境全场景,进而实现语音视频交互的会议装置,通过鱼眼镜头采集360度视频,从而捕获在场的所有会议参与者,通过麦克风阵列采集360度多通道音频,从而更好地去除噪声,回声消除,在多端会议进行交互时互不干扰,精确计算获取会议参与者发言人的位置通过高效的图像投影变换,声源定位,人脸检测算法,实时定位演讲人保证图像切换无延迟,无需云台,一定程度上提升了会议效果和会议质量。效果和会议质量。效果和会议质量。

【技术实现步骤摘要】
一种基于视觉与声音融合的可交互的会议装置


[0001]本技术涉及视频会议装置
,尤其涉及一种基于视觉与声音融合的可交互的会议装置。

技术介绍

[0002]信息时代的今天,人们对快速的信息沟通的要求越来越高,从政府机构的会议中心、指挥中心、监控中心、审判法庭到教育科研环境的多媒体教室、培训中心、学术报告厅,商务环境的行政会议室,星级酒店的多功能厅以至大型的国际会议中心,进行会议时用到的云台视频会议装置得到广泛应用,而随着科技的不断发展,为了保障会议的质量,人们对云台视频会议装置的功能要求也越来越多;
[0003]传统的纯语音会议装置使会议过程不够直观,而现有的云台视频会议装置大都功能单一,基于云台转动切换视频画面有延时,导致画面传递效果不佳,且装置的视频视角范围有限,无法预览整个会议场景,另外现有的会议装置无法精确突出主讲人,从而影响会议质量,因此,本技术提出一种基于视觉与声音融合的可交互的会议装置用以解决现有技术中存在的问题。

技术实现思路

[0004]针对上述问题,本技术的目的在于提出一种基于视觉与声音融合的可交互的会议装置,该基于视觉与声音融合的可交互的会议装置通过自研的高效的图像投影变换,声源定位,人脸检测算法,实时定位演讲人保证图像切换无延迟,无需云台,通过麦克风阵列采集多路音频定位讲话人方位角,对应角度映射到全景画面检测人脸规避噪声干扰,切换画面,精确呈现主讲人,预览会议环境全场景,进而实现语音和视频交互。
[0005]为了实现本技术的目的,本技术通过以下技术方案实现:一种基于视觉与声音融合的可交互的会议装置,包括音箱,所述音箱上设有电路板、支撑板、中空板和鱼眼镜头,所述电路板上设有USB 接口,所述电路板的中间位置设有主控芯片,所述支撑板的下表面设有音频处理芯片,所述支撑板的上表面设有角度传感器和镜头底座,所述中空板的上表面设有麦克风,所述中空板上开设有圆孔,所述支撑板通过支撑柱安装于电路板上。
[0006]进一步改进在于:所述USB接口为USB3.0高速接口,所述USB 接口安装于电路板侧边的中间位置。
[0007]进一步改进在于:所述镜头底座设于支撑板的中心位置,所述鱼眼镜头为220度鱼眼镜头,所述鱼眼镜头设于镜头底座的中心位置。
[0008]进一步改进在于:所述麦克风安装于中空板上表面的边缘位置,所述麦克风至少设有四组,所述麦克风呈等距阵列分布。
[0009]进一步改进在于:所述音频处理芯片的输入端与麦克风的输出端电性连接,所述音频处理芯片的输出端与主控芯片的输入端电性连接。
[0010]进一步改进在于:所述鱼眼镜头的输出端与角度传感器的输入端电性连接,所述
角度传感器的输出端与主控芯片的输入端电性连。
[0011]本技术的有益效果为:本技术包括音箱,通过麦克风阵列采集多路音频定位讲话人方位角,对应角度映射到全景画面检测人脸规避噪声干扰,切换画面,精确呈现主讲人,预览会议环境全场景,进而实现语音视频交互的会议装置,通过鱼眼镜头采集360度视频,从而捕获在场的所有会议参与者,通过麦克风阵列采集360度多通道音频,从而更好地去除噪声,回声消除,在多端会议进行交互时互不干扰,精确计算获取会议参与者发言人的位置通过高效的图像投影变换,声源定位,人脸检测算法,实时定位演讲人保证图像切换无延迟,无需云台,一定程度上提升了会议效果和会议质量。
附图说明
[0012]图1是本技术立体图;
[0013]图2是本技术正视图;
[0014]图3是本技术视觉与声音融合算法流程图;
[0015]图4是本技术声源定位算法流程图。
[0016]其中:1、音箱;2、电路板;3、支撑板;4、中空板;5、鱼眼镜头;6、USB接口;7、主控芯片;8、音频处理芯片;9、角度传感器;10、镜头底座;11、麦克风;12、圆孔;13、支撑柱。
具体实施方式
[0017]为了加深对本技术的理解,下面将结合实施例对本技术做进一步详述,本实施例仅用于解释本技术,并不构成对本技术保护范围的限定。
[0018]根据图1、2、3、4所示,本实施例提供了一种基于视觉与声音融合的可交互的会议装置,包括音箱1,通过音箱1播放通话声音,提高会议会话质量,所述音箱1上设有电路板2、支撑板3、中空板4和鱼眼镜头5,通过鱼眼镜头5采集水平方向360度场景,垂直视角截取60度来适配实际视频会议画面,所述电路板2上设有USB接口6,所述电路板2的中间位置设有主控芯片7,通过主控芯片7对视频图像算法处理,鱼眼画面矫正、裁切,音视频编码,数据传输控制,所述支撑板3的下表面设有音频处理芯片8,通过音频处理芯片 8进行回声消除,降噪,声源定位,所述支撑板3的上表面设有角度传感器9和镜头底座10,所述中空板4的上表面设有麦克风11,所述中空板4上开设有圆孔12,所述支撑板3通过支撑柱13安装于电路板2上。
[0019]所述USB接口6为USB3.0高速接口,即插即用,传输音视频数据,1080HD,可以无缝接入各种视频会议系统,所述USB接口6安装于电路板2侧边的中间位置。
[0020]所述镜头底座10设于支撑板3的中心位置,所述鱼眼镜头5为 220度鱼眼镜头,所述鱼眼镜头设于镜头底座10的中心位置。
[0021]所述麦克风11安装于中空板4上表面的边缘位置,所述麦克风 11设有四组,所述麦克风11呈等距阵列分布,采集多路声音信号。
[0022]所述音频处理芯片8的输入端与麦克风11的输出端电性连接,所述音频处理芯片8的输出端与主控芯片7的输入端电性连接。
[0023]所述鱼眼镜头5的输出端与角度传感器9的输入端电性连接,所述角度传感器9的输出端与主控芯片7的输入端电性连接。
[0024]先通过鱼眼镜头和麦克风阵列采集的鱼眼视频和多路音频进行方位角与全景视频画面坐标标定,再通过主控芯片对声源位置截取画面,接着进行人脸检测,若检测到存在人脸,则根据人脸和声源位置微调画面并将人脸至于画面中间,实现主讲人切换,若检测到不存在人脸,则会话界面保持不变,主讲人不变;会议环境中非人声时声源定位算法仍然生效,视频会议多人会话出现错误的画面切换,所以使用声源位置上的人脸检测验证是否需要进行画面换,优化通话会议系统,基于时间到达差定位声源位置,分为时延估计与声源定位,本装置采用广义互相关相位变换方法进行时延估计,具有一定的抗噪声和抗混响能力,声源定位则基于相位变换加权可控响应功率方法得到,在现实的混响环境中具有较强的鲁棒性;针对球面图像投影到平面过程中存在严重的畸变,适应卷积滤波器的采样位置,将卷积滤波器包围在球表面,反畸变,建立球面卷积神经网络模型,进行人脸检测。
[0025]该基于视觉与声音融合的可交互的会议装置,包括音箱1,通过麦克风11阵列采集多路音频定位讲话人方位角,对应角度映射到全景画面检测人脸规避噪声干扰,切换画面,精确呈现主讲人,预览会议本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉与声音融合的可交互的会议装置,包括音箱(1),其特征在于:所述音箱(1)上设有电路板(2)、支撑板(3)、中空板(4)和鱼眼镜头(5),所述电路板(2)上设有USB接口(6),所述电路板(2)的中间位置设有主控芯片(7),所述支撑板(3)的下表面设有音频处理芯片(8),所述支撑板(3)的上表面设有角度传感器(9)和镜头底座(10),所述中空板(4)的上表面设有麦克风(11),所述中空板(4)上开设有圆孔(12),所述支撑板(3)通过支撑柱(13)安装于电路板(2)上。2.根据权利要求1所述的一种基于视觉与声音融合的可交互的会议装置,其特征在于:所述USB接口(6)为USB3.0高速接口,所述USB接口(6)安装于电路板(2)侧边的中间位置。3.根据权利要求1所述的一种基于视觉与声音融合的可交互的会议装置,其特征在于:所述...

【专利技术属性】
技术研发人员:朱雷震徐东升周国辉
申请(专利权)人:上海庄生晓梦信息科技有限公司
类型:新型
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1