System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于图像响应自动助理的系统、方法和装置制造方法及图纸_技高网

用于图像响应自动助理的系统、方法和装置制造方法及图纸

技术编号:40592285 阅读:6 留言:0更新日期:2024-03-12 21:53
本申请涉及用于图像响应自动助理的技术。本文公开的技术使得用户能够与自动助理交互,并且从所述自动助理获得相关输出,不需要用户提供费力的键入输入,和/或不需要用户提供可能引起隐私关注(例如,如果附近有其它人)的语音输入。所述助理应用能够在多种不同的图像会话模式下操作,其中所述助理应用响应于所述相机的视场内的各种对象。当在所述相机的视场内检测到特定对象时,能够将所述图像会话模式建议给用户。当所述用户选择一种图像会话模式时,所述助理应用之后能够提供输出,以基于所述所选的图像会话模式并且基于由所述相机的图像捕捉的对象呈现。

【技术实现步骤摘要】

本申请涉及用于图像响应自动助理的技术。


技术介绍

1、人类可以使用本文称为“自动助理”(也称为“数字代理”、“聊天机器人”、“助理应用”、“交互式个人助理”、“智能个人助理”、“会话代理”等)的交互式软件应用参与人机对话。例如,人类(当他们与自动助理交互时可被称为“用户”)可以通过使用(i)口头自然语言输入(即话语),和/或(ii)通过提供文本(例如,键入的)自然语言输入提供命令和/或请求,在某些情况下可以将口头自然语言输入转换成文本然后进行处理。某些自动助理能够响应于来自用户的语音命令来提供信息(例如,电影放映时间、营业时间等),和/或根据语音命令来控制外围设备。尽管这些特征是方便的,但是可能存在多种方式:提供更精细的命令、以不太繁琐的输入提供命令、提供保护相应用户的隐私的命令和/或为命令提供附加或可替选益处。


技术实现思路

1、本文公开的实施方式涉及从客户端设备的相机生成针对图像中捕捉的对象的属性定制的输出,并且使得在客户端设备处渲染(例如,可听地和/或以图形方式)定制的输出,可选地连同(例如,以图形方式覆盖)来自相机的实时图像馈送的呈现。在各种实施方式中,相机捕捉的至少一个图像被处理以确定该图像捕捉的对象的一个或多个属性。此外,基于一个或多个确定的属性,从多个可用的会话模式的组中选择一个或多个会话模式的子组。然后,使得与子组的会话模式相对应的可选择元素在客户端设备的接口处被显示为初始输出。以这种方式,初始输出包括与会话模式相对应的可选择元素,这些可选择元素针对处理的图像中的对象的确定的属性定制。

2、响应于对可选择元素之一的选择,使得显示进一步的输出,其中进一步的输出包括针对所选元素的会话模式定制的对象数据,以及针对处理的图像中的对象定制的对象数据。例如,能够基于下列内容标识对象数据,该内容响应于基于会话模式和基于对象的一个或更多确定的属性(包括用于选择会话模式的子组的确定属性,和/或除了用于选择会话模式的子组的确定属性)表达的查询。能够发出查询以响应于可选择元素的选择来检索响应内容,或者能够在选择可选择元素之前发出查询。此外,响应于可选择元素的选择,基于响应内容的对象数据能够在客户端设备上以听觉或图形方式渲染成进一步的输出。例如,对象数据能够与从相机馈送的渲染的实时图像一起以以图形方式呈现。以这种方式,进一步的输出包括针对所选的会话模式和所处理的图像中的对象的所确定的属性而定制的对象数据。

3、在一些实施方式中,能够在选择会话模式、确定多个会话模式的可选择元素的呈现突出度和/或确定对象数据时另外利用一个或多个场境特征。场境特征能够包括例如计算设备的位置、一天中的时间、一周中的天、最近在来自相机的图像中检测到的对象的特征等。作为一个示例,如果计算设备的当前位置位于“杂货店”,则可以基于“食品”的对象标识符来选择“价格”会话模式,而如果当前位置是计算设备用户的“家”位置,则可不选择“价格”会话模式(或者相应的可选择元素的呈现较不突出)。作为另一示例,能够基于场境特征(例如,包括基于场境数据的术语)来进一步生成发出以确定对象数据的查询。

4、作为本文公开的实施方式的一个特定示例,客户端设备的相机能够捕捉图像。该图像能够捕捉大的红色美味苹果,并且能够进行处理以确定“食物”、“苹果”以及“红色美味”的属性。基于在一个或多个计算机可读介质中被定义为与“食物”属性相关联的“卡路里”会话模式,能够从多个可用会话模式的组中选择“卡路里”会话模式。然后能够在客户端设备的接口处显示与“卡路里”会话模式相对应的可选择元素作为初始输出。响应于对“卡路里”可选择元素的选择,能够显示针对“卡路里”会话模式定制并且进一步针对“红色美味”和“苹果”属性定制的其它输出。例如,“红色美味苹果中的卡路里”的查询能够被发送到搜索引擎,接收到“72卡路里”的响应,并且在客户端设备上显示“72卡路里”。例如,对象数据能够与相机馈送的经渲染的实时图像一起以以图形方式呈现。此外,用户之后能够将相机指向不同的食物对象并接收那些对象的卡路里信息。例如,在仍然处于“卡路里”模式时由相机捕捉的附加图像能够捕捉香蕉,并且能够经处理以确定“香蕉”属性。基于在附加图像中确定的“香蕉”属性,能够将“香蕉中的卡路里”的查询发送到搜索引擎,接收“105卡路里”的响应,并在客户端设备上显示“105卡路里”。

5、在各种实施方式中,本文所述的以上和其它技术使用户能够与自动助理交互并从自动助理获得相关输出,而无需由用户提供繁重的打字输入和/或不需要用户提供可能会引起隐私问题的语音输入(例如,如果附近有其它人)。此外,各种实施方式能够相对于其它技术减少获得相关输入所需的输入数量,这可以节省客户端设备的计算资源和/或帮助用户解决语音和/或灵活性问题。另外,本文公开的各种实施方式在客户端设备本地执行图像处理以确定图像中包含的对象的属性。在那些各种实施方式中的一些中,能够基于所确定的属性来进行对会话模式的任何选择和/或确定在远程设备上发生的对象数据,而无需对图像本身进行任何引用。以这种方式,能够在客户端设备上保存图像,而无需从设备发送图像以选择会话模式和/或获得响应对象数据——由此增强了这些图像的安全性。

6、在一些实施方式中,提出了一种由一个或多个处理器实现的方法。该方法能够包括诸如为从计算设备的相机馈送的实时图像中以以图形方式表示的对象生成对象标识符的步骤。实时图像馈送能够显示在计算设备的接口处,并且生成对象标识符能够包括处理来自实时图像馈送的一个或多个图像。该方法还能够包括基于所生成的对象标识符,从多个会话模式中选择会话模式,以经由计算设备的相机与助理应用进行交互。另外,该方法能够包括响应于会话模式的选择,使与所选择的会话模式相对应的可选择元素被显示在计算设备的接口处。该方法还能够包括:在接口处接收对可选择元素的选择;使得发送查询以检索与由对象标识符标识的对象相关联的数据;以及响应于接收到该选择,使数据在接口上显示。

7、在一些实施方式中,该方法能够包括当在接口上显示实时图像馈送时,在接口上接收对象的图形表示的选择。另外,生成对象标识符的步骤能够响应于接收到对象的图形表示的选择。能够在接口显示对象图形表示的同时显示数据。可选择元素能够标识其中助理应用提供数据的图像会话模式。在一些实施方式中,该方法能够包括确定与图像数据相关联的场境数据。以这种方式,能够进一步基于场境数据来选择图像会话模式。场境数据能够包括标识计算设备的位置的地理位置数据。场境数据能够包括相机正在生成实时图像馈送的时间。

8、在还有的其它实施方式中,提出一种系统,其包括相机、显示设备,与显示设备和相机通信的一个或多个处理器,以及存储器。存储器能够被配置成存储指令,当指令被一个或多个处理器执行时,使该一个或多个处理器执行包括从相机接收图像数据的步骤。图像数据能够包括或捕捉在相机的视场中存在的对象。这些步骤还能够包括基于对图像数据的处理来确定对象的对象标识符,以及使可选择元素在显示设备上以图形方式表示。可选择元素能够标识用于使用相机与本文档来自技高网...

【技术保护点】

1.一种由一个或多个处理器实现的方法,所述方法包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,还包括:

5.根据权利要求1所述的方法,还包括:

6.根据权利要求1所述的方法,其中,处理来自所述实时图像馈送的所述一个或多个图像包括:

7.根据权利要求1所述的方法,其中:

8.一种非暂时性计算机可读存储介质,被配置为存储指令,所述指令当由一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括:

9.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述操作还包括:

10.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述操作还包括:

11.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述操作还包括:

12.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述操作还包括:

13.根据权利要求8所述的非暂时性计算机可读存储介质,其中,处理来自所述实时图像馈送的所述一个或多个图像包括:

14.根据权利要求8所述的非暂时性计算机可读存储介质,其中,处理来自所述实时图像馈送的所述一个或多个图像包括:

15.一种计算设备,包括:

16.根据权利要求15所述的计算设备,其中,所述操作还包括:

17.根据权利要求15所述的计算设备,其中,所述操作还包括:

18.根据权利要求15所述的计算设备,其中,所述操作还包括:

19.根据权利要求15所述的计算设备,其中,所述操作还包括:

20.根据权利要求15所述的计算设备,其中,处理来自所述实时图像馈送的所述一个或多个图像包括:

21.一种由一个或多个处理器实现的方法,所述方法包括:

22.根据权利要求21所述的方法,还包括:

23.根据权利要求22所述的方法,其中,基于处理所述一个或多个图像来识别所述对象包括:

24.根据权利要求21所述的方法,其中,所述对象包括文本。

25.根据权利要求24所述的方法,还包括:

26.根据权利要求25所述的方法,其中,在所述显示设备处提供经翻译的文本包括:

27.根据权利要求25所述的方法,其中,在提供所述经翻译的文本之前,所述方法还包括:

28.根据权利要求21所述的方法,其中,所述对象数据是针对从所述实时图像馈送中的所述一个或多个图像识别的所述对象来进一步定制的。

29.根据权利要求21所述的方法,其中,对所述可选择元素的所述选择是在所述显示设备的触摸接口处接收的。

30.根据权利要求21所述的方法,其中,在所述显示设备处显示所述实时图像馈送的同时在所述计算设备处渲染所述可听输出。

31.根据权利要求21所述的方法,其中,所述显示设备被包括在与所述计算设备不同的客户端设备中。

32.根据权利要求21所述的方法,其中,所述显示设备被包括在所述计算设备中。

33.根据权利要求21所述的方法,还包括:

34.一种由一个或多个处理器实现的方法,所述方法包括:

35.根据权利要求34所述的方法,其中,描述所述对象的所述事实的所述内容包括描述所述对象的所述事实的自然语言内容和所述对象的图形表示,并且所述方法还包括:

36.根据权利要求35所述的方法,还包括

37.一种由一个或多个处理器实现的方法,所述方法包括:

...

【技术特征摘要】

1.一种由一个或多个处理器实现的方法,所述方法包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,还包括:

5.根据权利要求1所述的方法,还包括:

6.根据权利要求1所述的方法,其中,处理来自所述实时图像馈送的所述一个或多个图像包括:

7.根据权利要求1所述的方法,其中:

8.一种非暂时性计算机可读存储介质,被配置为存储指令,所述指令当由一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括:

9.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述操作还包括:

10.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述操作还包括:

11.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述操作还包括:

12.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述操作还包括:

13.根据权利要求8所述的非暂时性计算机可读存储介质,其中,处理来自所述实时图像馈送的所述一个或多个图像包括:

14.根据权利要求8所述的非暂时性计算机可读存储介质,其中,处理来自所述实时图像馈送的所述一个或多个图像包括:

15.一种计算设备,包括:

16.根据权利要求15所述的计算设备,其中,所述操作还包括:

17.根据权利要求15所述的计算设备,其中,所述操作还包括:

18.根据权利要求15所述的计算设备,其中,所述操作还包括:

19.根据权利要求15所述的计算设备,其中,所述操作还包括:

20.根据权利要求15所述的计算设备,其中,处理来自所述实时...

【专利技术属性】
技术研发人员:马尔钦·诺瓦克普日戈兹基格克汗·巴克尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1