基于多模态输入进行交互的方法和设备技术

技术编号：15910521 阅读：147 留言：0更新日期：2017-08-01 22:22

本发明专利技术的目的是提供一种能够更接近用户自然交互的基于多模态输入进行交互的智能眼镜设备和方法，包括：从多个输入模块的至少一个中获取若干输入信息；对若干所述输入信息进行综合逻辑分析，以生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；基于所述操作命令对所述操作对象执行相应操作。本申请所述用于智能眼镜设备及方法通过多个输入模块获取多通道的输入信息，并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素，以生成操作命令，再基于操作命令执行相应操作，从而实时地将信息融合处理，使用户更接近自然语言的交互方式，从而提高提供用户的交互体验。

Method and apparatus for interacting based on multi-modal inputs

The purpose of the invention is to provide a closer to user interaction based on natural multimodal input intelligent optical equipment and method, interaction includes: obtaining a number of input information from at least one of a plurality of input module; comprehensive logical analysis of the input information, to generate the operation command, among them, the the operation command is operating elements, the operating element includes at least the operation object, operation and operation parameters; the operation command executes corresponding operation to the operation object based on. The application of the smart glasses for equipment and method through the input information of a plurality of input module access channels, and input operation information comprehensive logic element analysis to determine the operation object, operation and operation of the operation to generate a command, and then execute the corresponding operation command based on real-time information, which will fusion processing, interactive way for users closer to natural language, so as to improve the user interaction experience.

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态输入进行交互的方法和设备
本专利技术涉及计算机领域增强现实技术，尤其涉及一种增强现实智能眼镜技术。
技术介绍
增强现实(AugmentedReality，增强现实)是在自然图片识别技术的一个子领域，将虚拟三维模型动画、视频、文字、图片等数字信息实时叠加显示到真实场景中，并与现实物体或者使用者实现自然互动的创新的人机交互技术，强调虚实融合的自然人机视觉交互。增强现实技术包含了多媒体、三维建模、实时视频显示及控制、多传感器溶合、实时跟踪及注册、场景融合等新技术与新手段。由于该技术的先进性和新颖性，增强现实技术的应用和推广也曾一度处于停滞不前的状态。在移动互联网时代，人机交互的一个非常核心的技术问题是如何高效、简便、自然地连接用户的线下当前真实场景和线上虚拟的信息和交互。在现有技术中，实现连接技术核心是计算机对线下物品的感知，包括检测、识别与跟踪。实现这种感知的手段大致有两种：用人工方式给线下物品打标签、用计算机自动识别线下物品。前者例如二维码、NFC、WiFi定位等技术，需要对每个目标物体进行修改，因此存在功能单一、部署和维护成本高、交互不自然、不直观、缺少美感等缺点。后者以自然图片识别技术为基础，对摄像头采集的图像数据进行智能分析，自动判断物体身份、类别和空间姿态等信息，对目标物体不需要任何改变，也更接近人的自然交互。因此，如何更好地实现用户线上线下信息链接和虚实融合的交互体验成为业界主流课题。
技术实现思路
本专利技术的一个目的是提供一种能够更接近用户自然交互的智能眼镜设备和方法。根据本申请一方面提供了一种用于智能眼镜设备基于多模态输入进行交互的方法...
基于多模态输入进行交互的方法和设备

【技术保护点】
一种用于智能眼镜设备基于多模态输入进行交互的方法，其中，所述方法包括：A从多个输入模块的至少一个中获取若干输入信息，多个所述输入模块包括：图像输入模块、声音输入模块、触控输入模块和传感输入模块，若干所述输入信息包括至少以下任一种：现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息；B对若干所述输入信息进行分析，以生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；C基于所述操作命令对所述操作对象执行相应操作。

【技术特征摘要】
1.一种用于智能眼镜设备基于多模态输入进行交互的方法，其中，所述方法包括：A从多个输入模块的至少一个中获取若干输入信息，多个所述输入模块包括：图像输入模块、声音输入模块、触控输入模块和传感输入模块，若干所述输入信息包括至少以下任一种：现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息；B对若干所述输入信息进行分析，以生成操作命令，其中，所述操作命令具有操作元素，所述操作元素至少包括操作对象、操作动作和操作参数；C基于所述操作命令对所述操作对象执行相应操作。2.根据权利要求1所述的方法，其中，所述步骤B包括：B1利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理，以生成若干所述结构化数据，其中，所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块或传感识别模块；B2对若干所述结构化数据进行融合处理和仲裁分析，以生成操作命令。3.根据权利要求2所述的方法，其中，所述步骤B1包括至少以下任一项：利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息，以获取关于可操作的目标集合的结构化数据；利用所述手势识别模块识别所述图像输入模块输入的手势信息，以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据；利用所述触控识别模块识别所述触控输入模块输入的触控信息，以获取至少以下任一种结构化数据：关于光标在屏幕上位置的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据；利用所述语音识别模块识别所述语音输入模块输入的语音信息，以获取至少以下任一种结构化数据：关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。4.根据权利要求2或3所述的方法，其中，所述步骤B2包括：B21确定所述结构化数据所对应的元素类型；B22对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择，以确定相应所述元素类型所对应的所述操作元素的元素信息；B23当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑，则基于相应所述操作元素的元素信息生成操作命令。5.根据权利要求4所述的方法，其中，所述步骤B22包括：B211对具有相同所述元素类型的所述结构化数据进行逻辑匹配，以确定至少一个待选元素信息；B222对所述待选元素信息进行仲裁选择，以选取其中一个作为选取元素信息；B223根据所述选取元素信息确定相应所述元素类型所对应的所述操作元素的元素信息。6.根据权利要求5所述的方法，其中，所述步骤B2还包括：B24当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑，则重新对其余所述待选元素信息进行仲裁选择，以重新选取其中一个作为选取元素信息；B25当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑，则清空所有操作类型对应的操作元素的元素信息。7.根据权利要求5或6所述的方法，其中，所述步骤B222包括：根据所述待选元素信息的时序和/或优先级排序进行竞争选择，当所述待选元素信息的时序及优先级排序均相同时进行随机选择，以选取其中一个作为所述选取元素信息。8.根据权利要求5至7中任一项所述的方法，其中，所述步骤B223包括：判断当前是否已有相应所述元素类型所对应的所述操作元素的元素信息；若已有，则判断所述选取元素信息的优先级是否高于所述已有的元素信息；若高于，则所述选取元素信息替代所述已有的元素信息，确定为相应所述元素类型所对应的所述操作元素的元素信息。9.根据权利要求2所述的方法，其中，所述步骤B2还包括：采用机器学习法对所有所述结构化数据进行逻辑匹配和仲裁选择，以确定每一所述元素类型所对应的所述操作元素的元素信息，其中，所述机器学习法包括至少以下任一项：决策树法、随机森林法、卷积神经网络法。10.根据权利要求1所述的方法，其中，所述步骤B还包括：创建深度学习神经网络构架模型；将所述输入信息的原始数据输入所述深度学习神经网络构架模型中进行融合处理和模型运算，以生成操作命令。11.根据权利要求10所述的方法，其中，所述深度学习神经网络构架模型为卷积神经网络构架模型。12.根据权利要求1至11中任一项所述的方法，其中，所述步骤B包括：将若干所述输入信息发送至分体控制装置进行综合逻辑分析，以生成所述操作命令，其中，所述分体控制装置与所述智能眼镜设备本体物理分离，并通过有线或无线方式与所述智能眼镜设备通信连接。13.根据权利要求1至12中任一项所述的方法，其中，所述方法还包括：D获取用户待设定操作命令的相关信息，基于所述待设定操作命令的相关信息更新所述操作命令。14.一种多模态输入进行交互的智能眼镜设备，其中，所述智能眼镜设备包括：第一装置，用于从多个输入模块的至少一个中获取若干输入信息，多个所述输入模块包括：图像输入模块、声音输入模块、触控输入模块和传感输入模块，若干所...

【专利技术属性】
技术研发人员：廖春元，唐荣兴，凌海滨，黄玫，
申请(专利权)人：亮风台上海信息科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人