基于多模态交互的多人机协同行为监控系统及其操控方法技术方案

技术编号:19055791 阅读:18 留言:0更新日期:2018-09-29 11:59
本发明专利技术涉及人机交互领域,提供了一种基于多模态交互的多人协同行为监控系统,旨在解决如何获取所有用户的交互行为数据并应用于多人协同指挥行为的技术问题。为此目的,本发明专利技术中基于多模态交互的多人协同行为监控系统包括云端服务器和多个子系统;子系统包括用于采集当前空间图像的图像采集装置、用于识别人脸、语义分析、唤醒识别和声源定位的控制装置、功放装置和多个用于采集空间内声音和根据所采集的声音判断声源位置的收音装置;云端服务器用于依据多个子系统得到识别结果和分析结果,向多个子系统的各控制装置发送控制指令,控制装置依据控制指令控制对应的功放装置播放应答语音。通过本发明专利技术可以获取所有用户的交互行为并实现多人协同操作。

【技术实现步骤摘要】
基于多模态交互的多人机协同行为监控系统及其操控方法
本专利技术涉及人机交互
,具体涉及一种基于多模态交互的多人协同行为监控系统及其操控方法。
技术介绍
随着人工智能的快速发展,人机交互过程中机器对人的多模态的理解,在教育领域、指挥控制领域、工程制造领域等扮演越来越重要的角色。随着社会的发展,人机交互过程中需要多人的协作配合来共同完成一个任务。常规的应用更多的是汇聚多家单一技术嫁接到产品中,传统包括图像应用技术,语音识别技术如科大讯飞的语音,face++的图像算法等。人工智能的起点是对图像识别和语音的准确处理,确切了说就是人机交互过程中机器对人的多模态的理解,而对于多人协同的人机交互过程中,例如在教育领域、指挥控制领域、工程制造领域,都会存在多人协同完成一个任务的情况,那么对多人行为数据进行采集分析就很有价值,而机器如何准确的理解多人的动作和语言势必需要一种系统设备提供多模态的数据,以达到群里协同适应性的目的。但是,要同时达到机器对多用户的全方位多模态数据的采集和多用户多节点的多模态理解,然后基于多用户信息交互下多模态的采集、分布式控制和学习,实现群体多模态对于动态复杂环境下多用户的适应的需求仍存在一定的空白。目前较为成熟的多模态集合体硬件系统和算法集合并没有真正协同起来。常规的人机交互监控和监测方式包括语音识别和动作监控,都是独立运行并且没有协同分析的,这样就不可避免的出现了对事件处理的关联性误差分析和准确度分析的缺失。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何获取所有用户的交互行为数据并应用于多人协同指挥行为的技术问题,本专利技术提供了一种基于多模态交互的多人协同行为监控系统。在第一方面,本专利技术中的基于多模态交互的多人协同行为监控系统包括云端服务器和多个子系统;所述子系统包括图像采集装置、控制装置、功放装置和多个收音装置,其中,所述图像采集装置设置在预设壳体的顶部,多个所述收音装置分布设置在所述预设壳体上,所述控制装置设置在所述预设壳体的内部,并分别与所述图像采集装置、功放装置和收音装置通信;所述图像采集装置,配置为采集所述系统当前所在空间的图像,并依据所采集的图像,获取人脸图像信息和实时捕捉人体肢体动作信息;所述收音装置,配置为采集所述空间内的声音和根据所采集的声音判断声源位置;所述控制装置包括人脸识别模块、语音识别定位模块和语音分析模块;所述人脸识别模块,配置为依据所述图像采集装置所获取的人脸图像信息进行人脸识别,并将识别结果发送到云端服务器;所述语音识别定位模块,配置为依据所述收音装置所采集的声音进行唤醒识别与声源定位;所述语音分析模块,配置为对所述收音装置所采集的声音进行语义分析,并将分析结果发送到所述云端服务器;所述云端服务器,配置为利用多模态算法并依据所述多个子系统发送的识别结果和分析结果,向多个子系统的各控制装置发送控制指令,所述各控制装置依据该控制指令控制对应的功放装置播放应答语音;所述功放装置,配置为对所述应答语音进行播放和声音放大。优选地,所述控制装置还包括图像采集控制模块;所述图像采集控制模块包括图像跟踪单元和声音跟踪单元;所述图像跟踪单元,配置为依据所述图像采集装置所获取的人脸图像信息和/人体肢体动作信息,确定用户所在区域,并控制所述图像采集装置获取该区域的图像;所述声音跟踪单元,配置为获取所述语音识别定位模块通过声源定位确定的区域,并控制所述图像采集装置获取该区域的图像。优选地,所述图像跟踪单元配置为采用跟踪算法确定用户所在的区域,并控制所述图像采集装置获取该区域的图像;所述声音跟踪单元配置为采用声源定位算法获取和确定声源所在的区域,并控制所述图像采集装置获取该区域的图像。优选地,所述图像采集装置包括摄像头、云台和云台驱动模块;所述云台驱动模块包括驱动器;所述摄像头通过所述云台安装在所述预设壳体的顶部;所述驱动器,配置为控制所述云台沿预设水平方向转动和预设垂直方向转动,以驱动所述摄像头水平运动和驱动所述摄像头俯仰运动。优选地,所述控制装置还包括启动控制模块;所述启动控制模块,配置为执行下述操作:接收系统启动指令,并依据所接收的系统启动指令,进行系统自检;在所述系统自检完成后,控制所述图像采集装置采集当前空间的图像,并判断所述图像是否包含人体特征信息;若所述图像包含人体特征信息,则依据所述人体特征信息确定用户所在区域,并控制所述图像采集装置采集该区域的图像,以及启动距该区域最近的收音装置;若所述图像未包含人体特征信息,则通过所述语音识别定位模块确定用户所在区域,并控制所述图像采集装置采集该区域的图像。优选地,所述收音装置为六个,各收音装置360°均匀环绕于预设壳体的中部,并在同一水平面上。优选地,所述收音装置为驻极体麦克风。优选地,所述控制装置还包括回声消除模块;所述回声消除模块用于对所述各功放装置协同播放应答语音时并对所述应答语音进行回声消除。优选地,所述子系统还包括供电装置,所述供电装置包括电源板和/或电池;所述电源板用于与外部电源连接以向子系统供电;所述电池用于直接向子系统供电。优选地,所述子系统还包括反馈装置;所述反馈装置,配置为获取各用户对所述功放装置播放应答语音的反应,并传送至云端服务器。在第二方面,本专利技术中的基于多模态交互的多人协同行为监控操控方法包括:对所述基于多模态交互的多人协同行为监控系统进行初始化;控制所述图像采集装置采集当前所在空间的图像和控制所述收音装置采集所述空间内的声音;通过所述控制模块中的图像跟踪单元和/或声音跟踪单元,获取用户所在区域的图像;通过所述控制模块中的人脸识别模块,和/或语音识别定位模块与语音分析模块,获取所述识别结果和分析结果;基于多个所述子系统发送的识别结果和分析结果,并通过所述云端服务器向多个所述子系统的各控制装置发送控制指令,以使各所述控制装置依据该控制指令控制对应的功放装置播放应答语音。与最接近的现有技术相比,上述技术方案至少具有以下有益效果:1.本专利技术的基于多模态交互的多人协同行为监控系统中,通过云端服务器和多个子系统的数据交互,可以同时达到对多用户的全方位数据的采集,对多用户多节点多模态的理解,然后基于多用户信息交互下多模态采集、分布式指挥控制和学习,实现群体多模态对于动态复杂环境下多用户的适应性的需求,从而实现了多人协同行为的多模态采集和分析建模,为多人共同完成一件任务提供了有力的保障。2.本专利技术的基于多模态交互的多人协同行为监控系统中,通过在控制装置中设置图像采集控制模块,不仅可以根据所获取的人脸图像信息和人体肢体动作信息实现实时追踪用户,而且还可以通过声源定位确定用户区域,实时追踪用户声音和动作,从而保证图像采集装置能够获取用户的图像,为多模态的人机交互奠定重要的基础。从而为多人协同行为分析的应用和人工智能涉及的信息采集和多模态行为建模作保障,更好地服务于人机交互过程中多人协同行为的多模态分析和应用。附图说明图1是本专利技术实施例的基于多模态交互的多人协同行为监控系统的主要框架示意图;图2是本专利技术实施例的基于多模态交互的多人协同行为监控系统的子系统的主要硬件布局的示意图;图3是本专利技术实施例的基于多模态交互的多人协同行为监控系统的主要工作流程示意图;附图中标记为:1-云端服务器,2-子系统,2本文档来自技高网...

【技术保护点】
1.一种基于多模态交互的多人协同行为监控系统,其特征在于,所述系统包括云端服务器和多个子系统;所述子系统包括图像采集装置、控制装置、功放装置和多个收音装置,其中,所述图像采集装置设置在预设壳体的顶部,多个所述收音装置分布设置在所述预设壳体上,所述控制装置设置在所述预设壳体的内部,并分别与所述图像采集装置、功放装置和收音装置通信;所述图像采集装置,配置为采集所述系统当前所在空间的图像,并依据所采集的图像,获取人脸图像信息和实时捕捉人体肢体动作信息;所述收音装置,配置为采集所述空间内的声音和根据所采集的声音判断声源位置;所述控制装置包括人脸识别模块、语音识别定位模块和语音分析模块;所述人脸识别模块,配置为依据所述图像采集装置所获取的人脸图像信息进行人脸识别,并将识别结果发送到云端服务器;所述语音识别定位模块,配置为依据所述收音装置所采集的声音进行唤醒识别与声源定位;所述语音分析模块,配置为对所述收音装置所采集的声音进行语义分析,并将分析结果发送到所述云端服务器;所述云端服务器,配置为利用多模态算法并依据所述多个子系统发送的识别结果和分析结果,向多个子系统的各控制装置发送控制指令,所述各控制装置依据该控制指令控制对应的功放装置播放应答语音;所述功放装置,配置为对所述应答语音进行播放和声音放大。...

【技术特征摘要】
1.一种基于多模态交互的多人协同行为监控系统,其特征在于,所述系统包括云端服务器和多个子系统;所述子系统包括图像采集装置、控制装置、功放装置和多个收音装置,其中,所述图像采集装置设置在预设壳体的顶部,多个所述收音装置分布设置在所述预设壳体上,所述控制装置设置在所述预设壳体的内部,并分别与所述图像采集装置、功放装置和收音装置通信;所述图像采集装置,配置为采集所述系统当前所在空间的图像,并依据所采集的图像,获取人脸图像信息和实时捕捉人体肢体动作信息;所述收音装置,配置为采集所述空间内的声音和根据所采集的声音判断声源位置;所述控制装置包括人脸识别模块、语音识别定位模块和语音分析模块;所述人脸识别模块,配置为依据所述图像采集装置所获取的人脸图像信息进行人脸识别,并将识别结果发送到云端服务器;所述语音识别定位模块,配置为依据所述收音装置所采集的声音进行唤醒识别与声源定位;所述语音分析模块,配置为对所述收音装置所采集的声音进行语义分析,并将分析结果发送到所述云端服务器;所述云端服务器,配置为利用多模态算法并依据所述多个子系统发送的识别结果和分析结果,向多个子系统的各控制装置发送控制指令,所述各控制装置依据该控制指令控制对应的功放装置播放应答语音;所述功放装置,配置为对所述应答语音进行播放和声音放大。2.根据权利要求1所述的系统,其特征在于,所述控制装置还包括图像采集控制模块;所述图像采集控制模块包括图像跟踪单元和声音跟踪单元;所述图像跟踪单元,配置为依据所述图像采集装置所获取的人脸图像信息和/人体肢体动作信息,确定用户所在区域,并控制所述图像采集装置获取该区域的图像;所述声音跟踪单元,配置为获取所述语音识别定位模块通过声源定位确定的区域,并控制所述图像采集装置获取该区域的图像。3.根据权利要求2所述的系统,其特征在于,所述图像跟踪单元配置为采用跟踪算法确定用户所在的区域,并控制所述图像采集装置获取该区域的图像;所述声音跟踪单元配置为采用声源定位算法获取和确定声源所在的区域,并控制所述图像采集装置获取该区域的图像。4.根据权利要求1所述的系统,其特征在于,所述图像采集装置包括摄像头、云台和云台驱动模块;所述云台驱动模块包括驱动器所述摄像头通过所述云台安装在所述预设壳体的顶部;所述驱动器,配置为控制所述云台沿预设水...

【专利技术属性】
技术研发人员:刘禹白忠可刘代金王国鹏
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1