【技术实现步骤摘要】
用于人机接口应用中内容识别的多模态传感器融合
技术介绍
[0001]传感器,如摄像机、麦克风等,可用于监测各种位置,并为分析处理提供数据。这些传感器可与人工智能系统集成,为用户提供交互内容,如促进销售交易的助手。用户可以通过提出问题和接收响应来与这些系统互动。然而,用户经常提供不充分的信息,使得这些系统难以在不获得额外信息的情况下提供响应。当用户要么收到不充分的信息,要么系统要求提供额外的信息以提供答案时,用户可能会感到沮丧并停止使用该系统。
附图说明
[0002]将参照附图描述根据本公开的各种实施例,其中:
[0003]图1示出了根据至少一个实施例的包括对象识别系统的环境的示例;
[0004]图2A和图2B示出了根据至少一个实施例的用于查询响应系统的示例过程流;
[0005]图3示出了根据至少一个实施例的用于对象识别系统的示例环境;
[0006]图4A和图4B示出了根据至少一个实施例的包括对象识别系统的示例环境;
[0007]图5示出了根据至少一个实施例的用于响应听觉查询的过程的示例流程图;以 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:接收听觉查询;确定所述听觉查询的意图;确定所述听觉查询提供用于识别与所述听觉查询相关联的物品的不充足的信息;响应于确定所述听觉查询提供不充足的信息,请求与所述物品相关联的视觉数据;接收所述视觉数据;至少部分地基于所述视觉数据,识别所述物品;以及提供对所述听觉查询的响应。2.根据权利要求1所述的计算机实现的方法,进一步包括:确定所述视觉数据中的用户的姿势;识别所述用户的第一点和所述用户的第二点;以及生成投射通过所述第一点和所述第二点的虚拟射线。3.根据权利要求2所述的计算机实现的方法,其中所述虚拟射线与和所述物品相关联的感兴趣区域相交。4.根据权利要求1所述的计算机实现的方法,进一步包括:从所述听觉查询中提取所述意图和实体;至少部分地基于识别标准,确定在所述听觉查询中未提供所述实体。5.根据权利要求1所述的计算机实现的方法,进一步包括:确定所述视觉数据中的用户的姿势;识别所述用户的一个或更多个附属物;以及至少部分地基于所述一个或更多个附属物的位置,确定与所述用户持有所述物品相对应的姿势。6.根据权利要求5所述的计算机实现的方法,进一步包括:确定与所述确定所述听觉查询提供不充足的信息相关联的置信因数;以及确定所述置信因数低于阈值。7.根据权利要求1所述的计算机实现的方法,其中使用自动语音识别ASR、自然语言处理NLP、自然语言理解NLU或文本到语音中的至少一种分析所述听觉查询。8.根据权利要求1所述的计算机实现的方法,进一步包括:使用从所述听觉查询中提取的所述意图填充意图槽;使用与所述物品相关联的信息填充实体槽;以及处理所述意图槽和所述实体槽以生成对所述听觉查询的响应。9.根据权利要求1所述的计算机实现的方法,其中所述图像数据是三维图像数据并且使用点云识别所述物品。10.一种方法,包括:从商业空间中的用户接收查询;确定用于意图槽的意图数据存在于所述查询的听觉部分内;确定用于实体槽的实体数据缺失于所述查询的所述听觉部分;至少部分地基于所述用户的视觉数据,检测用户姿势;至少部分地基于所述用户姿势,生成识别标准;以及
至少部分地基于所述识别标准,识别一个或更多个物品;以及用与所述一个或更多个物品相关联的实体数据填充所述实体槽。11.根据权利要求10所述的方法,进一步包括:至少部分...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。