当前位置: 首页 > 专利查询>辉达公司专利>正文

用于人机接口应用中内容识别的多模态传感器融合制造技术

技术编号:36739234 阅读:48 留言:0更新日期:2023-03-04 10:13
本公开涉及用于人机接口应用中内容识别的多模态传感器融合。当用户无意中未能提供足以继续进行他们的请求的信息时,与虚拟系统的交互可能会困难。某些类型的输入,如听觉输入,可能缺乏足以正确地向用户提供响应的信息。额外的信息,如图像数据,可以使用户的手势或姿势以补充听觉输入,能够在无需向用户请求额外信息的情况下生成响应。信息的情况下生成响应。信息的情况下生成响应。

【技术实现步骤摘要】
用于人机接口应用中内容识别的多模态传感器融合

技术介绍

[0001]传感器,如摄像机、麦克风等,可用于监测各种位置,并为分析处理提供数据。这些传感器可与人工智能系统集成,为用户提供交互内容,如促进销售交易的助手。用户可以通过提出问题和接收响应来与这些系统互动。然而,用户经常提供不充分的信息,使得这些系统难以在不获得额外信息的情况下提供响应。当用户要么收到不充分的信息,要么系统要求提供额外的信息以提供答案时,用户可能会感到沮丧并停止使用该系统。
附图说明
[0002]将参照附图描述根据本公开的各种实施例,其中:
[0003]图1示出了根据至少一个实施例的包括对象识别系统的环境的示例;
[0004]图2A和图2B示出了根据至少一个实施例的用于查询响应系统的示例过程流;
[0005]图3示出了根据至少一个实施例的用于对象识别系统的示例环境;
[0006]图4A和图4B示出了根据至少一个实施例的包括对象识别系统的示例环境;
[0007]图5示出了根据至少一个实施例的用于响应听觉查询的过程的示例流程图;以及
[0008]图6示出了根据至少一个实施例的用于响应查询的过程的示例流程图;
[0009]图7示出了根据至少一个实施例的数据中心系统;
[0010]图8示出了根据至少一个实施例的计算机系统;
[0011]图9示出了根据至少一个实施例的计算机系统;
[0012]图10示出了根据一个或更多个实施例的图形处理器的至少部分;以及
[0013]图11示出了根据一个或更多个实施例的图形处理器的至少部分。
具体实施方式
[0014]根据各种实施例的方法提供了用于改进由虚拟助手或其他人工智能系统向用户提供的信息的系统和方法。在各种实施例中,这些系统可以被部署在公共空间,例如零售空间,并被校准以与几个不同的并且可能是先前未知的用户进行交互。由于这些系统的位置,特定于用户的信息可能是不可用的,因此,用户查询可以提供所有或基本上所有的信息以便向用户提供响应。实施例包括对话系统,用于接收听觉信息,如语音命令或提示,以及视觉系统,用于在用户提供的听觉信息不充分时提供额外的信息。例如,系统可以使用来自视觉系统的信息来检测与虚拟助手的用户查询相关联的实体。对话系统可以包括各种自然语言处理技术,以识别用户提出的查询,确定用户的意图,确定与该意图相关联的实体,然后回复用户。在需要额外信息的情况下,例如确定用户询问的物品,视觉系统可以提供额外的工具以识别用户的姿势或手势。用户的姿势可以与用户指向某事物相关联,并且系统可以在用户身上的位置之间画一条射线,并延伸射线以试图与一个或更多个识别的物品相交。此外,用户的姿势可以与用户持有物品或物体相关联,而用户手中的物品可以被识别并用于响应查询。各种实施例可包括用于视觉系统的各种传感器,其中可以包括二维(2D)和三维(3D)传感器。
[0015]图1中示出了物理空间100,例如零售空间,物理空间100包括用户102与一个或更多个物品或产品104交互,物品或产品104可以是待售的。提供零售空间的使用只是为了举例说明,应该意识到,本公开内容的各种其他应用可能与零售空间无关,例如信息亭、传统大厅、校园工业环境等。在这个示例中,物品104彼此紧密定位,例如,沿着架子单元106,这些架子单元106可以在一个共同的架子上包括多个物品104。用户102还可以与人工智能(“AI”)助手AI助手108互动,AI助手108包括一个或更多个传感器,例如摄像头,该摄像头可以包括距离传感器、麦克风、雷达传感器和运动传感器,以及其他潜在传感器。用户102可以通过提供一个词或短语来获得AI助手108的注意,或者通过在视野范围内移动来激活运动传感器或被AI助手108识别,从而能够与AI助手108交互。在一个或更多个实施例中,AI助手108可以提供一个提示,例如在屏幕上,请求来自用户102的输入或查询。举例来说,用户102可以向AI助手108提出问题,例如与一个或更多个产品104相关的问题。
[0016]在至少一个实施例中,用户102可以以不为AI助手108提供足够的信息以提供响应的方式提出问题。通常,AI助手108可能需要至少一个用户查询的意图以及意图关注的实体。举例来说,用户102可以向AI助手108询问“品牌A相机的价格是多少?”。在这个示例中,AI助手108可以推断出该意图与价格有关且该实体是品牌A相机。然而,当有多个品牌A相机时,可能会出现问题。例如,品牌A型号1和品牌A型号2可能有不同的价格。因此,AI助手108可以向用户102询问额外的信息,例如请求模型。在型号复杂或有大量物品的情况下,用户102可能会越来越沮丧,并不再希望使用AI助手108。
[0017]在另一个示例中,用户102可以以提供甚至更少信息的方式与AI助手108对话。例如,用户102可以指向物品104并询问“那个多少钱?”在这个示例中,AI助手108可能没有信息来推断“那个”指的是什么,因此,可能需要询问用户额外的问题,降低用户对系统的满意度。本公开的系统和方法可以针对至少部分地基于用户在输入查询时或接近输入查询时的姿势或方位对意图或实体的识别。如下文所述,以“那个多少钱?”作为示例,系统和方法可以针对识别信息的缺乏(例如,实体的缺乏),从替代传感器(例如相机)获取数据,识别用户的姿势并至少部分地基于该姿势生成向量以推断实体。
[0018]举例来说,可以通过接近的规则库来评估查询,以确定一个或更多个槽是否从形成查询的词中被填充。这些槽可能对应于指向查询目标的意图,例如询问某物的价格是多少(意图:价格),询问感兴趣的物品或地方的位置(意图:位置),或者询问物品是否有库存或实体或服务是否可用(意图:可用性)。这种意图可以是针对一个或更多个实体。因为许多人工智能(AI)系统的设计是为了使用户能够自由和公开地交流,用户可能没有意识到他们没有提供足够的信息,例如使用间接词(如定语、代词、形容词等)。然而,系统可以使用额外的信息推断实体,如用户的目光,用户是否指向物品,用户是否触摸过物品或与物品交互,或用户是否持有物品。因此,接收超出初始听觉输入的信息可以使系统在不要求用户提供额外信息的情况下解决用户的查询。
[0019]图2A示出用于用户与AI助手(例如,人工智能系统)的一个或更多个功能的交互的示例系统流程200。在至少一个实施例中,示出的示例流程200是针对使用从用户接收的听觉输入(例如输入查询)的系统。一个或更多个组件,如麦克风202,可以接收来自用户的输入。然后,该输入可使用一个或更多个对话式AI系统进行处理,该对话式AI系统也可被称为对话系统204。在一个或更多个实施例中,这些系统可以包括用于自动语音识别(ASR)、自然
语言处理(NLP)或自然语言理解(NLU)或文本到语音(TTS)的系统。应当意识到,可以利用各种不同的深度学习模型来构建对话式AI系统,包括但不限于Wav2letter、Deepspeech、LAS、Jasper、Wavenet、Tacotron、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:接收听觉查询;确定所述听觉查询的意图;确定所述听觉查询提供用于识别与所述听觉查询相关联的物品的不充足的信息;响应于确定所述听觉查询提供不充足的信息,请求与所述物品相关联的视觉数据;接收所述视觉数据;至少部分地基于所述视觉数据,识别所述物品;以及提供对所述听觉查询的响应。2.根据权利要求1所述的计算机实现的方法,进一步包括:确定所述视觉数据中的用户的姿势;识别所述用户的第一点和所述用户的第二点;以及生成投射通过所述第一点和所述第二点的虚拟射线。3.根据权利要求2所述的计算机实现的方法,其中所述虚拟射线与和所述物品相关联的感兴趣区域相交。4.根据权利要求1所述的计算机实现的方法,进一步包括:从所述听觉查询中提取所述意图和实体;至少部分地基于识别标准,确定在所述听觉查询中未提供所述实体。5.根据权利要求1所述的计算机实现的方法,进一步包括:确定所述视觉数据中的用户的姿势;识别所述用户的一个或更多个附属物;以及至少部分地基于所述一个或更多个附属物的位置,确定与所述用户持有所述物品相对应的姿势。6.根据权利要求5所述的计算机实现的方法,进一步包括:确定与所述确定所述听觉查询提供不充足的信息相关联的置信因数;以及确定所述置信因数低于阈值。7.根据权利要求1所述的计算机实现的方法,其中使用自动语音识别ASR、自然语言处理NLP、自然语言理解NLU或文本到语音中的至少一种分析所述听觉查询。8.根据权利要求1所述的计算机实现的方法,进一步包括:使用从所述听觉查询中提取的所述意图填充意图槽;使用与所述物品相关联的信息填充实体槽;以及处理所述意图槽和所述实体槽以生成对所述听觉查询的响应。9.根据权利要求1所述的计算机实现的方法,其中所述图像数据是三维图像数据并且使用点云识别所述物品。10.一种方法,包括:从商业空间中的用户接收查询;确定用于意图槽的意图数据存在于所述查询的听觉部分内;确定用于实体槽的实体数据缺失于所述查询的所述听觉部分;至少部分地基于所述用户的视觉数据,检测用户姿势;至少部分地基于所述用户姿势,生成识别标准;以及
至少部分地基于所述识别标准,识别一个或更多个物品;以及用与所述一个或更多个物品相关联的实体数据填充所述实体槽。11.根据权利要求10所述的方法,进一步包括:至少部分...

【专利技术属性】
技术研发人员:S
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1