一种语音控制的AI摄像头制造技术

技术编号:37822432 阅读:18 留言:0更新日期:2023-06-09 09:59
本发明专利技术公开了一种语音控制的AI摄像头,涉及智能语音控制设备领域,包括摄像头模块,摄像头模块包括全景摄像头以及可转动的特写摄像头;音频输入模块,音频输入模块包括放置于会议桌正中间的全向麦克风;唤醒模块,唤醒模块用于识别唤醒词,并用于计算唤醒词所位于的DOA角度;识别模块,用于在唤醒模块给出唤醒命令后识别后续音频是否包含有效命令词;中央控制模块,用于连接上述所有模块并进行总体控制;输出模块,用于连接于显示器、音频播放设备输出画面和音频;当识别模块识别到预设的有效命令词时,中央控制模块根据有效命令词执行预设操作。本发明专利技术可提升AI摄像头的命令检测、执行的准确性,且具备智能跟踪的功能。且具备智能跟踪的功能。且具备智能跟踪的功能。

【技术实现步骤摘要】
一种语音控制的AI摄像头


[0001]本专利技术涉及智能语音控制设备领域,更具体地说,涉及一种语音控制的AI摄像头。

技术介绍

[0002]目前应用在会议场景的语音控制的摄像头,已经比较普遍,但现有的智能跟踪摄像头在实际使用过程中,可能出现如下问题:
[0003]若摄像头安装位置离参会人太远,则语音指令不容易识别,语音控制效果不佳;会议场景人声语音较多,很容易对摄像头造成命令词的误检测,导致摄像头被误操作。

技术实现思路

[0004]本专利技术要解决的技术问题是提供一种语音控制的AI摄像头,以提升命令检测、执行的准确性,且具备智能跟踪的功能。
[0005]为了达到上述目的,本专利技术采取以下技术方案:
[0006]一种语音控制的AI摄像头,包括:
[0007]摄像头模块,所述摄像头模块包括用于实时拍摄会议室全景的全景摄像头,以及用于捕捉特写的可转动的特写摄像头;
[0008]音频输入模块,所述音频输入模块包括放置于会议桌正中间的全向麦克风;
[0009]唤醒模块,所述唤醒模块用于识别唤醒词,并用于计算所述唤醒词所位于的DOA角度;
[0010]识别模块,用于在所述唤醒模块给出唤醒命令后识别后续音频是否包含有效命令词;
[0011]中央控制模块,用于连接上述所有模块并进行总体控制;
[0012]输出模块,用于连接于显示器、音频播放设备输出画面和音频;
[0013]当所述识别模块识别到预设的有效命令词时,所述中央控制模块根据所述有效命令词执行预设操作。
[0014]优选的,所述预设操作包括以下任意一个或其组合:
[0015]进入自动特写模式、退出自动特写模式、控制特写摄像头的指向、控制光学变焦的远近、开关字幕。
[0016]优选的,所述有效命令词包括以下任一个或其组合:
[0017]“进入自动特写模式”、“退出自动特写模式”、“向x方向转动y角度”,其中x方向包括左、右、上、下中的任意一个,y包括0~90
°
、“拉长聚焦长度”、“缩短聚焦长度”、“开启字幕”、“关闭字幕”。
[0018]除此之外,还可以包括:“看这里”、“说话人跟踪模式”、“演讲者跟踪模式”、“白板模式”、“自动取景模式”、“手动模式”、“画中画模式”、“再大点/再小点”;并支持命令词的泛化,比如“说话人跟踪模式”可以泛化的说法“说话人追踪”“话者跟踪”“跟说话人”等等。
[0019]优选的,所述自动特写模式下,当所述唤醒模块识别到唤醒词时,中央控制模块根
据所述唤醒模块所提供的DOA角度,调取全景摄像头中的图像,以识别产生唤醒词时该方向是否有人说话,若有人说话,则中央控制模块自动控制所述特写摄像头朝该方向的人进行特写识别。
[0020]优选的,所述音频输入模块还包括所述摄像头模块自带的麦克风阵列。
[0021]优选的,唤醒模块优先识别所述全向麦克风输入的音频,当所述全向麦克风无音频输入时,唤醒模块对所述摄像头模块自带的麦克风阵列进行音频识别。
[0022]优选的,所述唤醒模块内设置音频处理模块,所述音频处理模块对包含唤醒词的内容进行音频增强,并同时抑制其他音频的强度,以提高识别效率。
[0023]优选的,当唤醒模块检测到唤醒词时,所述中央控制模块按以下方式控制输出模块所输出的音频:对所述唤醒词所位于方向的音频进行增强,对其他方向的音频进行抑制。
[0024]优选的,所述全向麦克风处集成有音箱,所述音箱连接于所述输出模块。
[0025]优选的,所述输出模块包括视频输出接口以及音频输出接口,所述视频输出接口可以是HDMI接口、DP接口、网口、USB、DPI等。若用户对命令词不熟悉:用户可以说唤醒词,等待摄像头输出图像中,显示提示页面,根据提示页面说显示的命令词;若用户已熟练使用,则可以命令词和控制指令连说,缩短语音控制时间。
[0026]本专利技术相对于现有技术的优点在于,本专利技术设置外接全向麦克风音箱(包括全向麦克风和音箱的集成),放置于会议桌正中间,拾音设备离说话人更近,拾取的音频信噪比高、失真少;全向麦克风的麦克风阵列为专用拾音硬件,音频保真度高。
[0027]本专利技术可根据命令词执行的包括:控制摄像头的指向、控制光学变焦的远近、进入自动特写模式、开关字幕等功能,功能丰富且强大。通过语音,控制摄像头指向,优化了预置位模式须手动调整摄像头指向的过程,优化操作体验,用户不需要找遥控器。通过自动特写模式,可以对说话者的信息进行更智能的提取。本专利技术还可对唤醒词进行增强,提高了唤醒效率;还可对说话者的输出音频进行增强,提高了输出效果。本专利技术还具备集成度高的优点,所有模块和固件集成于AI摄像头,不需要PC端下载软件进行支持。
附图说明
[0028]图1是本专利技术结构的具体实施例示意图;
[0029]图2是本专利技术语音识别操作示意图;
[0030]图3是本专利技术自动特写模式过程示意图。
具体实施方式
[0031]下面结合附图对本专利技术的具体实施方式作描述。
[0032]如图1为一个具体实施例的设备连接图:AI摄像头可自带麦克风阵列,AI摄像头通过USB连接PC,PC上运行会议软件,可以通过AI摄像头获取图像和音频数据,AI摄像头通过USB透传全向麦克风音箱采集的说话人声音。
[0033]全向麦克风放在桌面,距离说话人距离更近,而且全向麦的麦克风阵列拾取音频效果更好,AI摄像头优先使用全向麦的音频做语音命令控制。若AI摄像头未连接全向麦克风音箱,则通过摄像头自带的麦克风阵列拾取用户命令词语音。
[0034]更具体的,本专利技术包括:
[0035]摄像头模块,摄像头模块包括用于实时拍摄会议室全景的全景摄像头,以及用于捕捉特写的可转动的特写摄像头;
[0036]音频输入模块,音频输入模块包括放置于会议桌正中间的全向麦克风;音频输入模块还包括摄像头模块自带的麦克风阵列;
[0037]唤醒模块,唤醒模块用于识别唤醒词,并用于计算唤醒词所位于的DOA角度;唤醒模块优先识别全向麦克风输入的音频,当全向麦克风无音频输入时,唤醒模块对摄像头模块自带的麦克风阵列进行音频识别;
[0038]识别模块,用于在唤醒模块给出唤醒命令后识别后续音频是否包含有效命令词;
[0039]中央控制模块,用于连接上述所有模块并进行总体控制;
[0040]输出模块,用于连接于显示器、音频播放设备输出画面和音频;
[0041]当识别模块识别到预设的有效命令词时,中央控制模块根据有效命令词执行预设操作。
[0042]如图2所示,使用方法总体包括如下步骤:
[0043]步骤1:AI摄像头优先从外接的全向麦克风音箱(全向麦克风和音箱的集成)拾取音频。
[0044]步骤2:AI摄像头本地运行唤醒模块和识别模块,处理拾取的音频数据。
[0045]步骤3:唤醒模块检测到唤醒词则进入到唤醒状态,等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音控制的AI摄像头,其特征在于,包括:摄像头模块,所述摄像头模块包括用于实时拍摄会议室全景的全景摄像头,以及用于捕捉特写的可转动的特写摄像头;音频输入模块,所述音频输入模块包括放置于会议桌正中间的全向麦克风;唤醒模块,所述唤醒模块用于识别唤醒词,并用于计算所述唤醒词所位于的DOA角度;识别模块,用于在所述唤醒模块给出唤醒命令后识别后续音频是否包含有效命令词;中央控制模块,用于连接上述所有模块并进行总体控制;输出模块,用于连接于显示器、音频播放设备输出画面和音频;当所述识别模块识别到预设的有效命令词时,所述中央控制模块根据所述有效命令词执行预设操作。2.根据权利要求1所述语音控制的AI摄像头,其特征在于,所述预设操作包括以下任意一个或其组合:进入自动特写模式、退出自动特写模式、控制特写摄像头的指向、控制光学变焦的远近、开关字幕。3.根据权利要求2所述语音控制的AI摄像头,其特征在于,所述有效命令词包括以下任一个或其组合:“进入自动特写模式”、“退出自动特写模式”、“向x方向转动y角度”,其中x方向包括左、右、上、下中的任意一个,y包括0~90
°
、“拉长聚焦长度”、“缩短聚焦长度”、“开启字幕”、“关闭字幕”。4.根据权利要求2或3所述语音控制的AI摄像头,其特征在于,所述自动特...

【专利技术属性】
技术研发人员:宋洪博王艳龙陈永波沈峥嵘
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1