用于多模式会话交互中的口头语言理解的眼睛注视制造技术

技术编号:16048729 阅读:43 留言:0更新日期:2017-08-20 08:22
描述了改进对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的理解和/或解析的准确性。本文描述的技术利用注视输入与姿势和/或语音输入来改进计算机化会话系统中的口头语言理解。通过改进系统能够关于视觉上下文中的视觉元素来解析引用(或解释用户的意图)的准确性,利用注视输入和语音输入改善了会话系统中的口头语言理解。在至少一个示例中,本文中的技术描述了跟踪注视以生成注视输入,标识语音输入以及从该用户输入提取注视特征和词汇特征。至少部分地基于该注视特征和该词汇特征,可以解析被指向视觉上下文中的视觉元素的用户话语。

【技术实现步骤摘要】
【国外来华专利技术】用于多模式会话交互中的口头语言理解的眼睛注视
技术介绍
当人类彼此交谈时,他们自然地将例如语音、姿势、面部/头部姿态和表情等来自不同模态的信息进行组合。随着计算机化设备的激增,人类具有与计算机化设备相关联的显示器交互的更多机会。口头对话系统或会话系统使得人类用户能够通过诸如语音和/或姿态的各种通信模式与计算系统通信。当前会话系统基于各种通信模式来标识用户与会话系统交互的意图。在一些示例中,会话系统通过计算用户的话语以及项目的词汇描述与屏幕上相关联的文本之间的相似性来解析用户话语中的引用表达。在其他示例中,屏幕上对象标识对于理解用户的意图是必要的,因为用户的话语关于用户可以引用的屏幕上的对象是不清楚的。因此,当前技术利用诸如语音和姿势的多模式输入来确定用户在屏幕上引用哪些对象。
技术实现思路
本文描述了用于理解和解析对与会话计算系统相关联的视觉上下文中对视觉元素的引用的技术。本文中的技术描述至少部分地基于从用户输入(例如,注视、语音等)提取的眼睛注视特征和词汇特征来检测注视、识别语音、以及解释关于视觉上下文中的视觉元素的用户的意图。在至少一个示例中,本文描述的技术包括:标识诸如web浏览器、应用本文档来自技高网...
用于多模式会话交互中的口头语言理解的眼睛注视

【技术保护点】
一种计算机实现的方法,所述方法用于理解和解析对会话计算系统的视觉上下文中的视觉元素的引用,所述方法包括:标识所述视觉上下文中可用于用户交互的所述视觉元素;从耦合到所述会话计算系统的一个或多个输入设备接收与所述视觉上下文中的所述视觉元素中的一个或多个视觉元素相关联的用户输入,所述用户输入包括:从引用所述一个或多个视觉元素中的特定视觉元素的语音输入得到的话语;以及与所述一个或多个视觉元素中的至少一些视觉元素相关联的注视输入,所述一个或多个视觉元素中的所述至少一些视觉元素包括所述特定视觉元素;至少部分地基于所述视觉元素和所述用户输入来提取词汇特征和注视特征;以及至少部分地基于所述词汇特征和注视特征来...

【技术特征摘要】
【国外来华专利技术】2014.09.25 US 14/496,5381.一种计算机实现的方法,所述方法用于理解和解析对会话计算系统的视觉上下文中的视觉元素的引用,所述方法包括:标识所述视觉上下文中可用于用户交互的所述视觉元素;从耦合到所述会话计算系统的一个或多个输入设备接收与所述视觉上下文中的所述视觉元素中的一个或多个视觉元素相关联的用户输入,所述用户输入包括:从引用所述一个或多个视觉元素中的特定视觉元素的语音输入得到的话语;以及与所述一个或多个视觉元素中的至少一些视觉元素相关联的注视输入,所述一个或多个视觉元素中的所述至少一些视觉元素包括所述特定视觉元素;至少部分地基于所述视觉元素和所述用户输入来提取词汇特征和注视特征;以及至少部分地基于所述词汇特征和注视特征来确定所述特定视觉元素。2.根据权利要求1所述的计算机实现的方法,其中所述视觉上下文是自由形式的web浏览器或者应用界面。3.根据权利要求1所述的计算机实现的方法,其中所述注视输入包括至少与所述预期视觉元素相关联的眼睛注视输入或者至少与所述预期元素相关联的头部姿态输入,其中所述用户头部姿态输入用作眼睛注视输入的代理。4.根据权利要求1所述的计算机实现的方法,还包括:计算与所述视觉元素的各个视觉元素相关联的概率以确定所述特定视觉元素,所述概率至少部分地基于所述词汇特征和所述注视特征。5.根据权利要求1所述的计算机实现的方法,其中提取注视特征包括:标识与所述注视输入相关联的多个固定点;将预定数量的所述多个固定点一起分组在一个群集中;以及将所述群集的质心标识为用于提取所述注视特征的特定固定点。6.根据权利要求1所述的计算机实现的方法,其中所述特定视觉元素与动作相关联,并且所述方法还包括:至少部分地基于标识所述特定视觉元素,使得与所述预期视觉元素相关联的所述动作在所述视觉上下文中被执行。7.一种计算机可读介质,所述计算机可读介质具有在其上的计算机可执行指令,所述计算机可执行指令当被执行时将计算机配置成执行根据权利要求1至6中任一项所述的方法。8.一种设备,包括:一个或多个处理器;以及计算机可读介质,所述计算机可读介质具有在其上的计算机可执行指令,所述计算机可执行指令当由所述一个或多个处理器执行时将所述设备配置成执行根据权利要求1-6中任一项所述的方法。9.一种会话计算系统,所述会话计算系统用于...

【专利技术属性】
技术研发人员:A·普罗科菲瓦F·A·塞利基尔马兹D·Z·哈卡尼图尔L·赫科M·斯拉尼
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1