当前位置: 首页 > 专利查询>苹果公司专利>正文

合并语音辨识结果制造技术

技术编号:8656487 阅读:124 留言:0更新日期:2013-05-02 00:14
以减少冗余性的合并方式来呈现通过将语音辨识算法应用于口述的输入所得的候选解释。产生候选解释的列表,且将每一候选解释再分为基于时间的部分,从而形成网格。从所述网格移除与来自其它候选解释的部分重复的那些基于时间的部分。提供向用户呈现在所述候选解释中进行选择的机会的用户接口,所述用户接口经配置以呈现不具有重复元素的这些替代项。

【技术实现步骤摘要】

本专利技术涉及用于辨识和解释口述的输入的自动化电子系统和方法。
技术介绍
在许多情形中,语音是用于对电子装置提供输入的优选机制。特定来说,口述的输入可有用于经由屏幕、键盘、鼠标或需要物理操纵和/或查看显示屏的其它输入装置与电子装置交互可能较困难或不安全的情形。举例来说,在驾驶交通工具时,用户可能希望对移动装置(例如智能电话)或基于汽车的导航系统提供输入,且可发现对装置说话是提供信息、输入数据或控制装置的操作的最有效方式。在其它情形中,用户可能发现提供口述的输入是方便的,因为他或她对较为接近地模仿与另一人的交互的对话界面感觉到更舒适。举例来说,用户可能希望在与如2011年I月10日申请的第12/987,982号美国技术专利申请案“智能自动化助理(Intelligent Automated Assistant) ”中描述的智能自动化助理交互时提供口述的输入,所述申请案以引用方式并入本文。语音辨识可用于许多不同情境中。举例来说,一些电子系统提供基于话音的用户接口,其允许用户经由口述的输入来控制装置的操作。语音辨识还可用于交互式话音辨识(IVR)电话系统,其中用户可导览选项菜单且可提供输入以例如购买飞机票、查看电影时间等等。语音辨识还用于许多形式的数据输入,包含经由文字处理器的写入。各种已知技术可用于解释口述的输入且将其转换为文本。声学建模可用于产生形成个别单词或短语的声音或音素的统计学表示。可将音频输入与这些统计学表示进行比较以作出哪些单词或短语是想要的确定。在许多系统中,以某种方式界定有限的词汇表,以便增加成功匹配的可能性。在一些系统中,语言建模可用以帮助预测口述的单词序列中的下一单词,且进而减少由语音辨识算法产生的结果中的模糊性。使用声学和/或语言模型的语音辨识系统的一些实例是CMU Sphinx,作为宾夕法尼亚州匹兹堡市卡内基梅隆大学(Carnegie Mellon University ofPittsburgh, Pennsylvania)的工程而开发;龙语音辨识软件,可从马萨诸塞州伯灵顿市白勺 Nuance 公司(Nuance Communications of Burlington,Massachusetts) 导;以及谷歌话音搜索,可从加利福尼亚州山景城的谷歌公司(Google, Inc. of Mountain View,California)购得。无论使用何种语音辨识技术,在许多情况下必须消除口述的输入的两个或两个以上可能解释之间的歧义。最方便的方法常常是询问用户若干可能的解释中的哪一者是想要的。为了实现此目的,可向用户呈现口述的输入的可能候选解释的某个集合,且提示用户选择一者。此提示可经由视觉接口而发生,例如在屏幕上呈现的视觉接口,或经由音频接口,其中系统读完候选解释且请求用户选择一者。当将语音辨识应用于连续口述的一组单词(例如一个句子中)时,可能存在若干候选解释。候选解释的集合可呈现为一组句子。在许多情况下,候选句子的部分彼此类似(或相同),而其它部分以某种方式不同。举例来说,口述的句子中的一些单词或短语对于系统来说可能比其它单词或短语更容易解释;或者,一些单词或短语可能与比其它单词或短语更多数目的候选解释相关联。另外,候选解释的总排列的数目由于候选解释集合中的自由度的总数的缘故而可能相对高,因为句子的不同部分可能各自以若干不同方式来解释。潜在较大数目的排列连同句子的不同部分的不同数目的候选一起可致使供用户选择的候选句子的呈现太多,且难以导览。需要一种用于对语音辨识系统的用户呈现候选句子的机制,其中候选句子的呈现经简化且串流以便避免对用户呈现太多数目的选项。进一步需要一种用于以减少冗余和混淆信息的方式呈现候选句子的机制。
技术实现思路
本专利技术的各种实施例实施用于在语音辨识系统中呈现候选解释集合的改善的机制。通过合并过程而最小化或消除冗余元素,以便简化对用户呈现的选项。本专利技术可在经配置以接收和解释口述的输入的任何电子装置中实施。以减少或消除冗余性的合并方式来呈现通过将语音辨识算法应用于口述的输入所得的候选解释。系统的输出是作为针对句子的在候选解释之间不同的那些部分的不同选项的集合而呈现的候选解释的列表,同时抑制在候选之间相同的那些部分的重复呈现。根据各种实施例,候选解释的经合并列表是通过首先获得语音输入的候选解释的原始列表来产生。将每一候选解释再分为基于时间的部分,从而形成网格。从所述网格移除与来自其它候选解释的部分重复的那些基于时间的部分。提供向用户呈现在所述候选解释中进行选择的机会的用户接口,所述用户接口经配置以呈现这些替代项,同时避免呈现重复元素。根据各种实施例,若干机制中的任一者可用于对用户呈现候选解释且接受关于用户的选择的输入。此些机制可包含任一合适类型的图形、文本、视觉和/或听觉接口。在一些实施例中,可对用户给出从不同候选解释中选择个别元素的机会,例如可从第一候选解释选择句子的第一部分,同时可从第二候选解释选择所述句子的第二部分。可接着从选定的部分组合最终结果。一旦用户已在候选解释当中进行选择,便可显示、存储、传输和/或以另外方式作用于选定的文本。举例来说,在一个实施例中,选定的文本可经解释为用以执行某个动作的命令。或者,选定的文本可经存储为文档或文档的一部分、电子邮件或其它形式的消息,或用于文本传输和/或存储的任何其它合适的库或媒体。如本文描述的本专利技术的这些各种实施例提供了用于改善在语音输入的候选解释当中进行区分的过程的机制。特定来说,此些实施例通过减少提供输入以在这些候选解释当中做出选择的负担和复杂性而改善了用户体验。根据一些实施方案,一种方法包含在处理器处,接收口述的输入的候选解释的列表。所述方法还包含从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列。所述方法还包含基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,每一记号群组包括至少一个记号。所述方法还包含响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生经合并网格。在一些实施方案中,所述方法包含在输出装置处基于所述经合并网格而输出所述候选解释。在一些实施方案中,所述方法包含基于所述经合并网格而致使输出装置输出所述候选解释。根据一些实施方案,一种方法包含在处理器处,接收语音输入的候选解释的经合并列表。所述经合并列表包括至少一个具有单个记号群组的列群组,以及至少一个具有多个记号群组的列群组。所述方法还包含针对具有单个记号群组的每一列群组,在输出装置上显示所述单个记号群组。所述方法还包含针对具有多个记号群组的每一列群组,以与包括单个记号群组的列群组的显示相比在视觉上有区别的方式在所述输出装置上显示所述记号群组中的第一记号群组。根据一些实施方案,一种方法包含在运行于服务器处的处理器处获得口述的输入的候选解释的列表。所述方法还包含从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列。所述方法还包含基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,且每一记号群组包括至少一个记号。所述方法还包含响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生候选项的经合并列表。所述方法还包含将候选项的经合并列表的表示从服务器发射到客户端。根据本文档来自技高网
...

【技术保护点】
一种用于产生语音辨识结果的经合并列表的计算机实施的方法,其包括:在处理器处,接收口述的输入的候选解释的列表;在所述处理器处,从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列;在所述处理器处,基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,每一记号群组包括至少一个记号;在所述处理器处,响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生经合并网格;以及基于所述经合并网格而致使输出装置输出所述候选解释。

【技术特征摘要】
2011.09.20 US 13/236,9421.一种用于产生语音辨识结果的经合并列表的计算机实施的方法,其包括: 在处理器处,接收口述的输入的候选解释的列表; 在所述处理器处,从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列; 在所述处理器处,基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,每一记号群组包括至少一个记号; 在所述处理器处,响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生经合并网格;以及 基于所述经合并网格而致使输出装置输出所述候选解释。2.根据权利要求1所述的计算机实施的方法,其中所述接收的列表中的每一候选解释包括多个记号,且其中从所述接收的列表形成记号网格包括: 在所述处理器处,针对每一候选解释中的每一记号,确定开始时间和结束时间; 在所述处理器处,从所述确定的开始时间和结束时间形成唯一整数集合; 在所述处理器处,形成包括对应于所述接收的列表中的候选解释的数目的若干行的网格,每一行包括对应于所述唯一整数集合中的唯一整数的数目的若干单元,所述单元被组织为若干列;以及 在所述处理器处,将每一记号插入由所述记号的所述开始时间和结束时间所跨越的所有单元中。3.根据权利要求1所述的计算机实施的方法,其中所述接收的列表中的每一候选解释包括与开始时间和结束时间相关联的多个记号,且其中所述网格的每一列与开始时间和结束时间相关联,且其中基于时序信息将所述网格分裂成列群组集合包括: 在所述处理器处,针对所述网格中的每一列: 响应于所述列并未已属于列群组,形成包含当前列的列群组; 针对所述列中的每一记号,确定所述列中的任何记号是否与跨越超过所述列的所述结束时间的结束时间相关联;以及 响应于所述列中的任一记号跨越超过所述列的所述结束时间,将下一列添加到包含所述当前列的所述列群组。4.根据权利要求1所述的计算机实施的方法,其中移除所述重复的记号群组以形成候选解释的所述经合并网格包括: 在所述处理器处,界定多个记号短语,每一记号短语包括出现在列群组的一行内的至少一个记号;以及 针对所述网格中的每一列群组: 确定任何记号短语是否在所述列群组内重复;以及 响应于任何记号短语是重复的,删除重复项。5.根据权利要求1到4中任一权利要求所述的计算机实施的方法,其进一步包括: 在所述处理器处,响应于任何边缘记号是在于所有其记号短语中具有至少两个记号的列群组内的记号短语之间共享,将所述列群组分裂成包括所述共享的边缘记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组。6.根据权利要求1到4中任一权利要求所述的计算机实施的方法,其进一步包括:在所述处理器处,针对在所有其记号短语中具有至少两个记号的每一列群组: 响应于任何记号出现在所述列群组中的所有记号短语的开始处,将所述列群组分裂为包括第一记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组;以及 响应于任何记号出现在所述列群组中的所有记号短语的结束处,将所述列群组分裂为包括最后一个记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组。7.根据权利要求1到4中任一权利 要求所述的计算机实施的方法,其进一步包括: 在所述处理器处,响应于任一列群组具有超过预定阈值的记号短语数目: 移除至少一个记号短语;以及 重复所述分裂所述网格和移除重复项的步骤。8.根据权利要求1到4中任一权利要求所述的计算机实施的方法,其中接收口述的输入的候选解释的所述列表包括: 在所述处理器处,接收多个经记号化的候选解释,每一候选解释包括多个记号;以及 在所述处理器处,接收每一记号的时序信息。9.根据权利要求1到4中任一权利要求所述的计算机实施的方法,其中候选解释的所述经合并网格包括: 至少一个具有单个记号群组的列群组;以及 至少一个具有多个记号群组的列群组。10.根据权利要求9所述的计算机实施的方法,其中致使所述输出装置输出所述候选解释包括: 针对每一列群组: 响应于所述列群组包括单个记号群组,致使所述输出装置在所述输出装置上显示所述单个记号群组;以及 响应于所述列群组包括多个记号群组,...

【专利技术属性】
技术研发人员:马尔切洛·巴斯泰亚福特大卫·A·维纳斯凯
申请(专利权)人:苹果公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1