基于多模态交互的多人机协同行为监控系统及其操控方法技术方案

技术编号：19055791 阅读：18 留言：0更新日期：2018-09-29 11:59

本发明专利技术涉及人机交互领域，提供了一种基于多模态交互的多人协同行为监控系统，旨在解决如何获取所有用户的交互行为数据并应用于多人协同指挥行为的技术问题。为此目的，本发明专利技术中基于多模态交互的多人协同行为监控系统包括云端服务器和多个子系统；子系统包括用于采集当前空间图像的图像采集装置、用于识别人脸、语义分析、唤醒识别和声源定位的控制装置、功放装置和多个用于采集空间内声音和根据所采集的声音判断声源位置的收音装置；云端服务器用于依据多个子系统得到识别结果和分析结果，向多个子系统的各控制装置发送控制指令，控制装置依据控制指令控制对应的功放装置播放应答语音。通过本发明专利技术可以获取所有用户的交互行为并实现多人协同操作。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态交互的多人机协同行为监控系统及其操控方法
本专利技术涉及人机交互
，具体涉及一种基于多模态交互的多人协同行为监控系统及其操控方法。
技术介绍
随着人工智能的快速发展，人机交互过程中机器对人的多模态的理解，在教育领域、指挥控制领域、工程制造领域等扮演越来越重要的角色。随着社会的发展，人机交互过程中需要多人的协作配合来共同完成一个任务。常规的应用更多的是汇聚多家单一技术嫁接到产品中，传统包括图像应用技术，语音识别技术如科大讯飞的语音，face++的图像算法等。人工智能的起点是对图像识别和语音的准确处理，确切了说就是人机交互过程中机器对人的多模态的理解，而对于多人协同的人机交互过程中，例如在教育领域、指挥控制领域、工程制造领域，都会存在多人协同完成一个任务的情况，那么对多人行为数据进行采集分析就很有价值，而机器如何准确的理解多人的动作和语言势必需要一种系统设备提供多模态的数据，以达到群里协同适应性的目的。但是，要同时达到机器对多用户的全方位多模态数据的采集和多用户多节点的多模态理解，然后基于多用户信息交互下多模态的采集、分布式控制和学习，实现群体多模态对于动态复杂环境下多用户的适应的需求仍存在一定的空白。目前较为成熟的多模态集合体硬件系统和算法集合并没有真正协同起来。常规的人机交互监控和监测方式包括语音识别和动作监控，都是独立运行并且没有协同分析的，这样就不可避免的出现了对事件处理的关联性误差分析和准确度分析的缺失。
技术实现思路
为了解决现有技术中的上述问题，即为了解决如何获取所有用户的交互行为数据并应用于多人协同指挥行为的技术问题，本专利技术提供...

【技术保护点】
1.一种基于多模态交互的多人协同行为监控系统，其特征在于，所述系统包括云端服务器和多个子系统；所述子系统包括图像采集装置、控制装置、功放装置和多个收音装置，其中，所述图像采集装置设置在预设壳体的顶部，多个所述收音装置分布设置在所述预设壳体上，所述控制装置设置在所述预设壳体的内部，并分别与所述图像采集装置、功放装置和收音装置通信；所述图像采集装置，配置为采集所述系统当前所在空间的图像，并依据所采集的图像，获取人脸图像信息和实时捕捉人体肢体动作信息；所述收音装置，配置为采集所述空间内的声音和根据所采集的声音判断声源位置；所述控制装置包括人脸识别模块、语音识别定位模块和语音分析模块；所述人脸识别模块，配置为依据所述图像采集装置所获取的人脸图像信息进行人脸识别，并将识别结果发送到云端服务器；所述语音识别定位模块，配置为依据所述收音装置所采集的声音进行唤醒识别与声源定位；所述语音分析模块，配置为对所述收音装置所采集的声音进行语义分析，并将分析结果发送到所述云端服务器；所述云端服务器，配置为利用多模态算法并依据所述多个子系统发送的识别结果和分析结果，向多个子系统的各控制装置发送控制指令，所述各控制...

【技术特征摘要】
1.一种基于多模态交互的多人协同行为监控系统，其特征在于，所述系统包括云端服务器和多个子系统；所述子系统包括图像采集装置、控制装置、功放装置和多个收音装置，其中，所述图像采集装置设置在预设壳体的顶部，多个所述收音装置分布设置在所述预设壳体上，所述控制装置设置在所述预设壳体的内部，并分别与所述图像采集装置、功放装置和收音装置通信；所述图像采集装置，配置为采集所述系统当前所在空间的图像，并依据所采集的图像，获取人脸图像信息和实时捕捉人体肢体动作信息；所述收音装置，配置为采集所述空间内的声音和根据所采集的声音判断声源位置；所述控制装置包括人脸识别模块、语音识别定位模块和语音分析模块；所述人脸识别模块，配置为依据所述图像采集装置所获取的人脸图像信息进行人脸识别，并将识别结果发送到云端服务器；所述语音识别定位模块，配置为依据所述收音装置所采集的声音进行唤醒识别与声源定位；所述语音分析模块，配置为对所述收音装置所采集的声音进行语义分析，并将分析结果发送到所述云端服务器；所述云端服务器，配置为利用多模态算法并依据所述多个子系统发送的识别结果和分析结果，向多个子系统的各控制装置发送控制指令，所述各控制装置依据该控制指令控制对应的功放装置播放应答语音；所述功放装置，配置为对所述应答语音进行播放和声音放大。2.根据权利要求1所述的系统，其特征在于，所述控制装置还包括图像采集控制模块；所述图像采集控制模块包括图像跟踪单元和声音跟踪单元；所述图像跟踪单元，配置为依据所述图像采集装置所获取的人脸图像信息和/人体肢体动作信息，确定用户所在区域，并控制所述图像采集装置获取该区域的图像；所述声音跟踪单元，配置为获取所述语音识别定位模块通过声源定位确定的区域，并控制所述图像采集装置获取该区域的图像。3.根据权利要求2所述的系统，其特征在于，所述图像跟踪单元配置为采用跟踪算法确定用户所在的区域，并控制所述图像采集装置获取该区域的图像；所述声音跟踪单元配置为采用声源定位算法获取和确定声源所在的区域，并控制所述图像采集装置获取该区域的图像。4.根据权利要求1所述的系统，其特征在于，所述图像采集装置包括摄像头、云台和云台驱动模块；所述云台驱动模块包括驱动器所述摄像头通过所述云台安装在所述预设壳体的顶部；所述驱动器，配置为控制所述云台沿预设水...

【专利技术属性】
技术研发人员：刘禹，白忠可，刘代金，王国鹏，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人