基于多模态输入进行交互的方法和设备技术

技术编号:15910521 阅读:147 留言:0更新日期:2017-08-01 22:22
本发明专利技术的目的是提供一种能够更接近用户自然交互的基于多模态输入进行交互的智能眼镜设备和方法,包括:从多个输入模块的至少一个中获取若干输入信息;对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;基于所述操作命令对所述操作对象执行相应操作。本申请所述用于智能眼镜设备及方法通过多个输入模块获取多通道的输入信息,并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素,以生成操作命令,再基于操作命令执行相应操作,从而实时地将信息融合处理,使用户更接近自然语言的交互方式,从而提高提供用户的交互体验。

Method and apparatus for interacting based on multi-modal inputs

The purpose of the invention is to provide a closer to user interaction based on natural multimodal input intelligent optical equipment and method, interaction includes: obtaining a number of input information from at least one of a plurality of input module; comprehensive logical analysis of the input information, to generate the operation command, among them, the the operation command is operating elements, the operating element includes at least the operation object, operation and operation parameters; the operation command executes corresponding operation to the operation object based on. The application of the smart glasses for equipment and method through the input information of a plurality of input module access channels, and input operation information comprehensive logic element analysis to determine the operation object, operation and operation of the operation to generate a command, and then execute the corresponding operation command based on real-time information, which will fusion processing, interactive way for users closer to natural language, so as to improve the user interaction experience.

【技术实现步骤摘要】
基于多模态输入进行交互的方法和设备
本专利技术涉及计算机领域增强现实技术,尤其涉及一种增强现实智能眼镜技术。
技术介绍
增强现实(AugmentedReality,增强现实)是在自然图片识别技术的一个子领域,将虚拟三维模型动画、视频、文字、图片等数字信息实时叠加显示到真实场景中,并与现实物体或者使用者实现自然互动的创新的人机交互技术,强调虚实融合的自然人机视觉交互。增强现实技术包含了多媒体、三维建模、实时视频显示及控制、多传感器溶合、实时跟踪及注册、场景融合等新技术与新手段。由于该技术的先进性和新颖性,增强现实技术的应用和推广也曾一度处于停滞不前的状态。在移动互联网时代,人机交互的一个非常核心的技术问题是如何高效、简便、自然地连接用户的线下当前真实场景和线上虚拟的信息和交互。在现有技术中,实现连接技术核心是计算机对线下物品的感知,包括检测、识别与跟踪。实现这种感知的手段大致有两种:用人工方式给线下物品打标签、用计算机自动识别线下物品。前者例如二维码、NFC、WiFi定位等技术,需要对每个目标物体进行修改,因此存在功能单一、部署和维护成本高、交互不自然、不直观、缺少美感等缺点。后者以自然图片识别技术为基础,对摄像头采集的图像数据进行智能分析,自动判断物体身份、类别和空间姿态等信息,对目标物体不需要任何改变,也更接近人的自然交互。因此,如何更好地实现用户线上线下信息链接和虚实融合的交互体验成为业界主流课题。
技术实现思路
本专利技术的一个目的是提供一种能够更接近用户自然交互的智能眼镜设备和方法。根据本申请一方面提供了一种用于智能眼镜设备基于多模态输入进行交互的方法,其中,所述方法包括:A从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;B对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;C基于所述操作命令对所述操作对象执行相应操作。进一步地,所述方法还包括:D获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令。进一步地,所述步骤B包括:将若干所述输入信息发送至分体控制装置进行综合逻辑分析,以生成所述操作命令,其中,所述分体控制装置与所述智能眼镜设备本体物理分离,并通过有线或无线方式与所述智能眼镜设备通信连接。根据本专利技术的另一个方面提供了一种多模态输入进行交互的智能眼镜设备,其中,所述智能眼镜设备包括:第一装置,用于从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;第二装置,用于对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;第三装置,用于基于所述操作命令对所述操作对象执行相应操作。进一步地,所述智能眼镜设备还包括:分体控制装置,用于获取若干所述输入信息,并进行综合逻辑分析,以生成所述操作命令,其中,所述分体控制装置与所述智能眼镜设备本体物理分离,并通过有线或无线方式与所述智能眼镜设备通信连接。相比于现有技术,本申请所述用于智能眼镜设备基于多模态输入进行交互的方法和智能眼镜设备通过多个输入模块获取多通道的输入信息,并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素,以生成操作命令,再基于操作命令执行相应操作,从而实时地将现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息融合处理,使用户更接近自然语言的交互方式,从而提高提供用户的交互体验。进一步地,通过获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令,使用户可以自行定义交互操作,提高用户使用的灵活性。进一步地,所述智能眼镜设备通过设置物理分离的分体控制装置,并以有线或无线的方式通信连接,将所述智能眼镜设备的处理核心业务逻辑交由分体控制装置,能够降低智能眼镜设备本身体积和重量,并避免智能眼镜设备过度散热导致用户使用不适。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本申请一方面提供的智能眼镜设备的功能示意图;图2示出根据本申请一方面提供的一种多模态输入进行交互的智能眼镜设备的设备示意图;图3示出根据本申请优选实施例提供的一种多模态输入进行交互的智能眼镜设备的设备示意图;图4示出根据本申请一优选的实施例所示的智能眼镜设备基于多模态输入进行交互的流程示意图;图5示出根据本申请一优选实施例提供的所述智能眼镜设备基于用户操作定义交互操作的过程示意图;图6示出根据本申请一方面提供的一种在智能眼镜设备端用于多模态输入进行交互的流程示意图;图7示出根据本申请优选实施例提供的一种智能眼镜设备端用于多模态输入进行交互的方法流程示意图;图8示出根据本申请优选实施例提供的一种智能眼镜设备端利用深度学习网络法进行综合逻辑分析的示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本专利技术作进一步详细描述。结合图1,本申请主旨在于,提供一种智能眼镜设备对多模态输入,例如语音、触摸、手势、场景等输入信息进行综合处理,包括基于输入信息确定交互操作的操作命令对操作对象(包括电视、灯、洗衣机等具有实体的物体,眼镜投影显示的无实体物体等)进行相应操作,此外,还可以为用户提供定义交互操作的功能。基于以上,图2示出根据本申请一方面提供的一种多模态输入进行交互的智能眼镜设备的设备示意图,其中,所述智能眼镜设备1包括:第一装置11、第二装置12和第三装置13。其中,所述第一装置11从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;所述第二装置12对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;所述第三装置13基于所述操作命令对所述操作对象执行相应操作。在此,所述智能眼镜设备1是一种可穿戴智能设备,以眼镜的硬件载体形式、融合AR(AugmentedReality,增强现实)的软件交互方式,以实现用户线上线下的信息链接和虚实融合的交互体验。所述智能眼镜设备1可以采用任意操作系统,如android操作系统、iOS操作系统等。如android操作系统、iOS操作系统等。所述智能眼镜设备1的硬件设备可以包括摄像输入模块(例如RGB摄像头、三维摄像头等)、传感输入模块(例如惯性测量单元IMU,包括电子罗盘、加速度、角速度、陀螺仪等)、语音输入模块(例如话筒等)、显示屏、语音播放设备、触觉输出设备以及数据处理本文档来自技高网...
基于多模态输入进行交互的方法和设备

【技术保护点】
一种用于智能眼镜设备基于多模态输入进行交互的方法,其中,所述方法包括:A从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;B对若干所述输入信息进行分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;C基于所述操作命令对所述操作对象执行相应操作。

【技术特征摘要】
1.一种用于智能眼镜设备基于多模态输入进行交互的方法,其中,所述方法包括:A从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;B对若干所述输入信息进行分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;C基于所述操作命令对所述操作对象执行相应操作。2.根据权利要求1所述的方法,其中,所述步骤B包括:B1利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理,以生成若干所述结构化数据,其中,所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块或传感识别模块;B2对若干所述结构化数据进行融合处理和仲裁分析,以生成操作命令。3.根据权利要求2所述的方法,其中,所述步骤B1包括至少以下任一项:利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息,以获取关于可操作的目标集合的结构化数据;利用所述手势识别模块识别所述图像输入模块输入的手势信息,以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据;利用所述触控识别模块识别所述触控输入模块输入的触控信息,以获取至少以下任一种结构化数据:关于光标在屏幕上位置的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据;利用所述语音识别模块识别所述语音输入模块输入的语音信息,以获取至少以下任一种结构化数据:关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。4.根据权利要求2或3所述的方法,其中,所述步骤B2包括:B21确定所述结构化数据所对应的元素类型;B22对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择,以确定相应所述元素类型所对应的所述操作元素的元素信息;B23当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑,则基于相应所述操作元素的元素信息生成操作命令。5.根据权利要求4所述的方法,其中,所述步骤B22包括:B211对具有相同所述元素类型的所述结构化数据进行逻辑匹配,以确定至少一个待选元素信息;B222对所述待选元素信息进行仲裁选择,以选取其中一个作为选取元素信息;B223根据所述选取元素信息确定相应所述元素类型所对应的所述操作元素的元素信息。6.根据权利要求5所述的方法,其中,所述步骤B2还包括:B24当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑,则重新对其余所述待选元素信息进行仲裁选择,以重新选取其中一个作为选取元素信息;B25当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑,则清空所有操作类型对应的操作元素的元素信息。7.根据权利要求5或6所述的方法,其中,所述步骤B222包括:根据所述待选元素信息的时序和/或优先级排序进行竞争选择,当所述待选元素信息的时序及优先级排序均相同时进行随机选择,以选取其中一个作为所述选取元素信息。8.根据权利要求5至7中任一项所述的方法,其中,所述步骤B223包括:判断当前是否已有相应所述元素类型所对应的所述操作元素的元素信息;若已有,则判断所述选取元素信息的优先级是否高于所述已有的元素信息;若高于,则所述选取元素信息替代所述已有的元素信息,确定为相应所述元素类型所对应的所述操作元素的元素信息。9.根据权利要求2所述的方法,其中,所述步骤B2还包括:采用机器学习法对所有所述结构化数据进行逻辑匹配和仲裁选择,以确定每一所述元素类型所对应的所述操作元素的元素信息,其中,所述机器学习法包括至少以下任一项:决策树法、随机森林法、卷积神经网络法。10.根据权利要求1所述的方法,其中,所述步骤B还包括:创建深度学习神经网络构架模型;将所述输入信息的原始数据输入所述深度学习神经网络构架模型中进行融合处理和模型运算,以生成操作命令。11.根据权利要求10所述的方法,其中,所述深度学习神经网络构架模型为卷积神经网络构架模型。12.根据权利要求1至11中任一项所述的方法,其中,所述步骤B包括:将若干所述输入信息发送至分体控制装置进行综合逻辑分析,以生成所述操作命令,其中,所述分体控制装置与所述智能眼镜设备本体物理分离,并通过有线或无线方式与所述智能眼镜设备通信连接。13.根据权利要求1至12中任一项所述的方法,其中,所述方法还包括:D获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令。14.一种多模态输入进行交互的智能眼镜设备,其中,所述智能眼镜设备包括:第一装置,用于从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所...

【专利技术属性】
技术研发人员:廖春元唐荣兴凌海滨黄玫
申请(专利权)人:亮风台上海信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1