与话音参考点的协同言语交互制造技术

技术编号:15530006 阅读:42 留言:0更新日期:2017-06-04 17:13
示例装置和方法通过组合话音与其它输入模态(例如,触摸、悬停、手势、凝视)而改进人类设备交互的效率和准确度以创建更自然且更吸引人的多模态交互。多模态交互扩展了用户对于设备的表达能力。基于经优先化或排序的输入的组合来建立话音参考点。协同言语交互发生在话音参考点的上下文中。示例协同言语交互包括命令、口述或会话交互。话音参考点可以在复杂度方面从单个离散参考点(例如,单个触摸点)变化到多个同时参考点到顺序参考点(单个触摸或多点触摸),到与例如手势相关联的类似参考点。建立话音参考点允许表面化附加的上下文适当的用户接口元件,其进一步在自然且吸引人的体验方面改进人类设备交互。

Cooperative speech interaction with speech reference points

Sample device and method through a combination of voice and other input modes (e.g., touch, hover, gesture, gaze) and the improvement of human device interaction efficiency and accuracy to create more natural and more attractive multimodal interaction. Multimodal interaction extends the user's ability to communicate with the device. Establish a speech reference point based on a combination of prioritized or sorted inputs. Cooperative speech interaction takes place in the context of the speech reference point. Examples of collaborative speech interaction include commands, dictation, or conversational interaction. The reference point can voice in complexity from a single discrete reference point (for example, a single touch point) and the reference point to the order of reference point changes to multiple (single touch or multi touch), and e.g.gesture associated similar reference point. Building a voice reference point allows for the addition of context appropriate user interface components to further improve human device interaction in both natural and attractive experiences.

【技术实现步骤摘要】
【国外来华专利技术】与话音参考点的协同言语交互
技术介绍
计算设备持续以令人惊讶的速率激增。截至2014年九月,大概存在具有触敏屏的二十亿台智能电话和平板电脑。这些设备中的大多数具有内置麦克风和相机。用户以许多变化且令人感兴趣的方式与这些设备交互。例如,三维(3D)触摸或悬停传感器能够在用户手指或实现物(例如,笔、触笔)靠近或触摸设备的屏幕时检测它们的存在、位置和角度。关于用户手指的信息可以促进标识出用户正引用的屏幕上的对象或位置。即便使用触摸屏与设备交互的丰富性,但是与设备进行通信可能仍然是不自然或者困难的尝试。在人类与人类的世界中,与其他人类的有效交流牵涉多个同时模态,包括例如话音、眼神接触、做手势、身体语言、声调或变音,所有这些可以取决于针对其含义的上下文。尽管人类同时使用多个模态与其他人类交互,但是人类往往每次使用单个模态与其设备交互。仅使用单个模态可能限制用户的表达能力。例如,与设备的一些交互(例如,导航快捷键)仅使用话音完成,而其它交互(例如,滚动)仅使用手势完成。当在常规设备上使用话音命令时,受限的上下文可能要求用户说出已知的冗长命令或者参与繁琐的来回对话,这二者都可能是不自然或受限的。具有双重结果的单个模态输入可能抑制了解如何与接口交互,因为用户可能害怕不小心做了不可撤销的事情。
技术实现思路
提供该
技术实现思路
来以简化形式引入以下在具体实施方式中进一步描述的概念的选择。该
技术实现思路
不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。示例装置和方法通过组合话音与其它输入模态(例如,触摸、悬停、手势、凝视)而在针对人类与设备的交互的常规方案之上进行改进以创建更高效、更自然且更吸引人的多模态交互。组合话音外加另一模态的这些多模态输入可以称为“协同言语”交互。多模态交互扩展用户对于设备的表达能力。为了支持多模态交互,用户可以使用经优先化或排序的输入的组合来建立话音参考点。可以提供关于话音参考点的建立或位置的反馈以进一步改进交互。协同言语交互然后可以发生在话音参考点的上下文中。例如,用户可以同时说话和做手势以指示所说出的词语针对哪里。更具体地,通过能够与话音并发地或者顺序地使用多种类型的输入来标识他们在谈论什么,用户可以与设备交互得更像他们在与人交谈。示例装置和方法可以促进协同言语交互,其组合话音与其它输入模态以加速任务并且增加用户在任何单个模态之上的表达能力。协同言语交互针对与话音参考点相关联的(多个)对象。协同言语交互可以例如是命令、口述、会话交互或其它交互。话音参考点可以在复杂度方面从单个离散参考点(例如,单个触摸点)变化到多个同时参考点到顺序参考点(单个触摸或多点触摸),一直到与例如手势相关联的类似参考点。当建立话音参考点时,可以表面化上下文用户接口元件。附图说明附图图示了本文描述的各种示例装置、方法和其它实施例。将领会到,在图中图示的元件边界(例如,框、框组或其它形状)表示边界的一个示例。在一些示例中,一个元件可以被设计为多个元件,或者多个元件可以被设计为一个元件。在一些示例中,示为另一元件的内部组件的元件可以被实现为外部组件,并且反之亦然。此外,元件可能没有按照比例绘制。图1图示了处置与话音参考点的协同言语交互的示例设备。图2图示了处置与话音参考点的协同言语交互的示例设备。图3图示了处置与话音参考点的协同言语交互的示例设备。图4图示了处置与话音参考点的协同言语交互的示例设备。图5图示了和处置与话音参考点的协同言语交互相关联的示例方法。图6图示了和处置与话音参考点的协同言语交互相关联的示例方法。图7图示了其中可以做出与话音参考点的协同言语交互的示例云操作环境。图8是描绘了可以支持处置与话音参考点的协同言语交互的示例性移动通信设备的系统图。图9图示了用于处置与话音参考点的协同言语交互的示例装置。图10图示了用于处置与话音参考点的协同言语交互的示例装置。图11图示了具有触摸和悬停敏感性的示例设备。图12图示了可以使用与话音参考点的协同言语交互来改进的示例用户接口。具体实施方式示例装置和方法通过组合话音与其它输入模态(例如,触摸、悬停、手势、凝视)而在针对人类与设备的交互的常规方案之上进行改进以创建更高效、更自然且更吸引人的多模态(例如,协同言语)交互。为了支持多模态交互,用户可以使用来自各种输入设备的经优先化或排序的输入而建立话音参考点。包括话音和其它输入(例如,触摸、悬停、手势、凝视)二者的协同言语交互然后可以发生在话音参考点的上下文中。例如,用户可以同时说话和做手势以指示所说的词语针对哪里。能够说话和做手势可以促进例如在文本或电子邮件应用中从字段向字段移动而不必触摸屏幕以从字段向字段移动。能够说话和做手势还可以促进例如向对象应用命令而不必触摸对象或触摸菜单。例如,可以建立话音参考点并且使其与显示在设备上的照片相关联。协同言语命令然后可以基于语音命令而引起照片向用户的发送。能够说话和做手势还可以促进例如参与到与设备的会话或对话中。例如,用户可能能够通过指向地图上的地点而引用区域(例如,在“这里”的一英里内)并且然后发出请求(例如,寻找“这里”的一英里内的意大利餐馆)。在照片和地图示例二者中,在常规系统中可能难以描述对象或位置。示例装置和方法可以促进协同言语交互,其组合话音与其它输入模态以加速任务并且增加用户在任何单个模态之上的表达能力。协同言语交互可以是针对与话音参考点相关联的(多个)对象。话音参考点可以从简单的单个离散参考点(例如,单个触摸点)变化到多个同时参考点到顺序参考点(单个触摸或多点触摸),一直到与例如手势相关联的类似参考点。例如,用户可以使用手势在地图之上标识繁忙体育馆周围的区域并且然后寻求从点A到点B的避免繁忙体育馆的方向指引(direction)。图1图示了处置与话音参考点的协同言语交互的示例设备100。用户可以使用其手指110来指向设备100上的显示器的部分。图1图示了已经指向的并且已经与话音参考点相关联的对象120。当用户说出命令时,该命令将被应用于对象120。对象120展现出反馈(例如,高亮、加阴影),该反馈指示话音参考点与对象120相关联。对象122、124和126没有展现出反馈,并且因而用户将知晓对象120与话音参考点相关联,并且对象122、124和126不与话音参考点相关联。将对象130图示在设备100的屏幕之外。在一个实施例中,话音参考点可以与位于设备100之外的对象相关联。例如,如果设备100处在第二设备旁边的桌子上,则用户可能使用其手指110来指向第二设备上的对象并且因而可以将话音参考点建立为与所述另一设备相关联。甚至更一般地,用户可能能够指示然后将由设备100对其应用协同言语命令的另一设备。例如,设备100可以是智能电话,并且设备100的用户可以正在观看智能电视。用户可以使用设备100建立与智能电视相关联的话音参考点,并且然后发出协同言语命令,比如“继续在那个屏幕上观看该表演”,其中“该”和“那个”依照协同言语交互来确定。命令可以由设备100处理,并且然后设备100可以控制第二设备。图2图示了处置与话音参考点的协同言语交互的示例设备200。用户可以使用其手指210在设备200上的显示器上绘制或以其它方式标识区域250。区域250可以覆盖本文档来自技高网...
与话音参考点的协同言语交互

【技术保护点】
一种方法,包括:建立用于用户和设备之间的协同言语交互的话音参考点,其中设备是启用话音的,其中设备具有视觉显示器,其中设备具有至少一个非话音输入装置,并且其中话音参考点的位置至少部分地通过来自非话音输入装置的输入而确定;控制设备以提供关于话音参考点的反馈;接收与用户和设备之间的协同言语交互相关联的输入;以及控制设备以将协同言语交互处理为上下文语音命令,其中与语音命令相关联的上下文至少部分地取决于话音参考点。

【技术特征摘要】
【国外来华专利技术】2014.10.08 US 14/5091451.一种方法,包括:建立用于用户和设备之间的协同言语交互的话音参考点,其中设备是启用话音的,其中设备具有视觉显示器,其中设备具有至少一个非话音输入装置,并且其中话音参考点的位置至少部分地通过来自非话音输入装置的输入而确定;控制设备以提供关于话音参考点的反馈;接收与用户和设备之间的协同言语交互相关联的输入;以及控制设备以将协同言语交互处理为上下文语音命令,其中与语音命令相关联的上下文至少部分地取决于话音参考点。2.权利要求1所述的方法,其中话音参考点与显示在视觉显示器上的单个离散对象相关联,其中话音参考点与同时显示在视觉显示器上的两个或更多离散对象相关联,或者其中话音参考点与在视觉显示器上顺序引用的两个或更多离散对象相关联。3.权利要求1所述的方法,其中设备是蜂窝电话、平板计算机、平板手机、膝上型计算机或桌面型计算机。4.权利要求1所述的方法,其中协同言语交互是要应用于与话音参考点相关联的对象的命令,或者要键入到与话音参考点相关联的对象中的口述,或者用户和设备上的话音代理之间的会话的部分。5.权利要求1所述的方法,包括,控制设备以提供标识与话音参考点相关联的对象的视觉、触觉或听觉反馈。6.权利要求1所述的方法,包括,控制设备以至少部分地基于与话音参考点相关联的对象而呈现附加用户接口元件。7.权利要求1所述的方法,包括,至少部分地基于与话音参考点相关联的对象而选择性地操控用于运行在设备上的语音代理的主动监听模式。8.权利要求7所述的方法,包括,控制设备以在操控主动监听模式时提供视觉、触觉或听觉反馈。9.权利要求1所述的方法,其中所述至少一个非话音输入装置是触摸传感器、悬停传感器、深度...

【专利技术属性】
技术研发人员:C克莱因
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1