适于在语音用户界面中使用的用于找出web页面中的元素的方法(消歧)技术

技术编号:12773103 阅读:48 留言:0更新日期:2016-01-27 16:47
一种用于针对web页面或其他文档的语音界面的消歧过程。所述过程标识诸如链接之类的交互式元素,获取每个交互式元素的一个或多个短语(诸如链接文本、标题文本和图像的可替换文本),以及将所述短语添加到用于话音识别的语法中。当不存在单个、明确的最佳匹配时,一组交互式元素被标识为对于语音命令的潜在最佳匹配。所述消歧过程修改所述文档的显示,以便为所述组中的每个交互式元素提供唯一标记,以及提示用户提供随后的口述命令来标识所述唯一标记中的一个唯一标记。标识所选唯一标记,并且为对应的交互式元素生成点击事件。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
web页面是由诸如膝上电脑、个人计算机、游戏控制台和智能电话之类的客户端计算设备渲染的文档的示例。web页面可以使用例如超文本标记语言(HTML)来编码,以及由web浏览器代码来渲染以便显示。文档中的诸如超链接之类的交互式元素可以被用户选择以便查看附加的内容,诸如通过使用鼠标或对触摸屏进行触摸来选择链接。然而,web页面不常被设计用于语音交互。此外,某些确实存在的解决方案要求web页面被专门针对语音交互进行编码。
技术实现思路
本文中描述的技术提供各种实施例,以用于为文档的交互式元素提供针对语音用户界面的消歧(disambiguation)过程。在一种方法中,对文档进行分析以标识该文档中的例如超链接或其他链接、按钮或输入栏之类的交互式元素。每个交互式元素由关联的代码定义,所述关联代码包括一个或多个关联于所述交互式元素的短语。用户然后提供语音命令来选择所述交互式元素中的一个。所述语音命令被转换成文本,并被与候选短语的语法中的一个或多个短语进行比较。如果不存在任何单个、清楚的最佳匹配,则使用消歧过程来允许所述用户从具有相对于所述语音命令的最高匹配分数的交互式元素组中进行选择。所述消歧过程可以涉及将所述文档的显示修改为提供靠近所述组中的交互式元素中的每个交互式元素的唯一标记(例如第一,第二,第三……)。这些交互式元素的链接文本也可以在视觉上进行区别,而其他交互式元素的文本可以被移除或视觉上不再强调(例如显示为灰色),以便将用户的注意力引导到所述最佳匹配交互式元素。所述用户然后可以提供随后的语音命令,其标识所述唯一标记中的一个唯一标记。一旦所述唯一标记被标识,则为对应的交互式元素生成点击事件。即,所述交互式单元就像其被诸如鼠标之类的指向设备点击一样被选择。提供本摘要用于以简化形式介绍下面在详细说明书中进一步描述的概念的选择。本摘要不旨在标识所要求权利的主题的关键特征或基本特征,其也不旨在被用作在确定所要求权利的主题的范围时的辅助。附图说明在附图中,相同编号的元件彼此对应。图1描绘了包括客户端计算设备145、网络通信介质170和服务器180的计算系统。图2A描绘了图1的客户端计算设备145的一个示例实施例。图2B描绘了针对图2A的代码155的组件的一个示例过程流。图3以诸如游戏控制台之类的多媒体控制台100的形式描绘了图1的客户端计算设备145的一个示例框图。图4以计算系统200的形式描绘了图1的客户端计算设备145的另一示例框图。图5A描绘了用于将语音用户界面提供给文档的过程概览。图5B提供图5A的步骤502的用于分析文档以标识交互式元素和关联短语的示例细节。图5C提供图5A的步骤504的用于将语音命令与交互式元素的关联短语进行比较的示例细节。图5D提供图5C的步骤524的用于将候选短语与口述单词的序列进行比较的示例细节。图5E提供图5A的步骤506的用于执行消歧过程的示例细节。图5F提供图5A的步骤508的用于检测和处理已更新交互式元素的示例细节。图6A描绘了在显示设备的显示区域中的文档顶部的显示。图6B描绘了在显示设备的显示区域中的图6A的文档底部的显示。图6C描绘了图6A的文档的顶部,其中,消歧标签被添加到链接文本610和612。图6D描绘了图6C的文档的顶部,其中,添加了链接文本610和612的改变的外观,以及移除了来自图6C的链接文本614。图7A1描绘了图6A的交互式元素640的示例代码。图7A2描绘了对应于图7A1的示例语法条目。图7B1描绘了图6A的交互式元素641的示例代码。图7B2描绘了对应于图7B1的示例语法条目。图7C1描绘了图6A的交互式元素642的链接614的示例代码。图7C2描绘了图6A的交互式元素642的图像616的示例代码。图7C3描绘了对应于图7C1和7C2的示例语法条目。图7D1描绘了图6A的交互式元素643的示例代码。图7D2描绘了对应于图7D1的示例语法条目。图7E1描绘了图6A的交互式元素644的示例代码。图7E2描绘了对应于图7E1的示例语法条目。图7F1描绘了交互式元素的一个示例,所述交互式元素是按钮。图7F2描绘了图7F1的交互式元素的示例代码。图7F3描绘了对应于图7F2的示例语法条目。图7G1描绘了作为提交类型的输入的交互式元素的一个示例。图7G2描绘了图7G1的交互式元素的示例代码。图7G3描绘了对应于图7G2的示例语法条目。图7H1描绘了作为复选框类型的输入的交互式元素的一个示例。图7H2描绘了图7H1的交互式元素的示例代码。图7H3描绘了对应于图7H2的示例语法条目。图7I1描绘了作为单选(radio)类型的输入的交互式元素的一个示例。图7I2描绘了图7I1的交互式元素的示例代码。图7I3描绘了对应于图7I2的示例语法条目。图7J1描绘了作为选择选项的交互式元素的一个示例。图7J2描绘了图7J1的交互式元素的示例代码。图7J3描绘了对应于图7J2的示例语法条目。具体实施方式本文中描述的技术为诸如web页面的文档提供针对语音用户界面的消歧过程。自然用户界面(NUI)在允许用户与计算设备上的应用进行交互的方面已变得流行,所述计算设备诸如是web使能的游戏控制台、电视和其他多媒体设备。NUI允许用户使用语音命令和手势的组合。例如,诸如挥手或其他身体移动之类的手势可以用于与应用进行交互,以便输入命令或玩游戏。运动检测相机可以用于识别手势。类似地,可以将语音命令与用于调用函数的命令匹配。例如,某个命令可以用于做出菜单选择(例如使用诸如“播放电影”或“玩游戏”之类的短语)。在播放电影的情况下,用户可以说出诸如“暂停”、“快进”和“倒回”之类的命令。使用语音命令来浏览web的能力在人工输入设备不可用或不方便的场景中特别有用。一般说来,语音界面可以包括:用户可以说的一组短语、绑定到那些短语的一组动作、以及使用户知道他们可以说哪些短语的用户体验。语音界面呈现通过说短语所执行的动作的结果。用户体验可以例如使用另一人类语音、视频显示、可刷新盲文显示(brailledisplay)或任何可以用于向用户传达信息的设备来呈现所述结果。将被识别的一组短语和对应的动作在这些情况下可以相对有限,并且一般是预定的。相反,在为诸如web页面之类的文档提供语音用户界面时,将被识别的一组短语和对应的动作一般不是预定的。通常,web页面包括采用HTML(标记)、JAVASCRIPT(程序代码)和层叠样式表或CSS(样式)形式的代码。尽管存在来自W3C的采用标准和非标准跟踪规范形式的针对向web页面添加语音界面的一些成果,但不存在被广泛部署的解决方案。因此,web页面现今未被设计用于语音交互。本文中提供的技术使能实现针对web页面的语音界面本文档来自技高网...

【技术保护点】
一种用于提供语音用户界面的方法,其包括:分析文档以标识在所述文档中的多个交互式元素,所述多个交互式元素中的每个交互式元素包括关联的短语;渲染所述文档以提供在显示设备上的显示,在所述显示中提供所述关联的短语;将用户的语音命令与多个短语进行比较,所述多个短语包括所述多个交互式元素的关联短语;基于所述比较,对于每个交互式元素确定指示其关联短语与所述语音命令的匹配程度的匹配分数;将所述交互式元素中的一个交互式元素基于其匹配分数而标识作为对于所述语音命令的最接近匹配;以及基于所述匹配分数,决定是否对所述交互式元素中的作为最接近匹配的交互式元素生成点击事件,或者是否启动消歧过程,所述消歧过程允许所述用户从包括所述多个交互式元素中最高的匹配分数的交互式元素组中进行选择。

【技术特征摘要】
【国外来华专利技术】2013.05.21 US 13/8990741.一种用于提供语音用户界面的方法,其包括:
分析文档以标识在所述文档中的多个交互式元素,所述多个交互式元素中的每个交互式元素包括关联的短语;
渲染所述文档以提供在显示设备上的显示,在所述显示中提供所述关联的短语;
将用户的语音命令与多个短语进行比较,所述多个短语包括所述多个交互式元素的关联短语;
基于所述比较,对于每个交互式元素确定指示其关联短语与所述语音命令的匹配程度的匹配分数;
将所述交互式元素中的一个交互式元素基于其匹配分数而标识作为对于所述语音命令的最接近匹配;以及
基于所述匹配分数,决定是否对所述交互式元素中的作为最接近匹配的交互式元素生成点击事件,或者是否启动消歧过程,所述消歧过程允许所述用户从包括所述多个交互式元素中最高的匹配分数的交互式元素组中进行选择。
2.根据权利要求1所述的方法,其中:
对于所述交互式元素中的作为最接近匹配的交互式元素,如果其匹配分数按绝对项计算足够高并且比下一较低的匹配分数高出足够多,则生成所述点击事件。
3.根据权利要求1或2所述的方法,其中:
如果所述交互式元素中的作为最接近匹配的交互式元素的匹配分数是以下中的至少一项,则启动所述消歧过程:按绝对项计算并非足够高,或者不比下一较低的匹配分数高出足够多。
4.根据权利要求1到3中的任一项所述的方法,其中:
所述消歧过程包括修改所述显示,以便识别所述组中的交互式元素中的每个交互式元素。
5.根据权利要求4所述的方法,其中:
修改所述显示包括提供靠近所述组中的交互式元素中的每个交互式元素在显示上的唯一标记;
所执行的方法进一步包括:
将用户的随后语音命令与每个唯一标记进行比较;
基于对所述随后语音命令进行的比较,标识所述唯一标记中的作为对于所述随后语音命令的最佳匹配的唯一标记;以及
针对由唯一标记中的所述那个唯一标记所标识的所述交互式元素中的一个交互式元素,生成点击事件。...

【专利技术属性】
技术研发人员:AS蔡勒MH金R本森R萨林YC巨
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1