当前位置: 首页 > 专利查询>苹果公司专利>正文

基于用户反馈来改善自动语音识别制造技术

技术编号:15448424 阅读:55 留言:0更新日期:2017-05-31 09:31
本发明专利技术提供了用于在数字助理中处理语音的系统和过程。在一示例性过程中,可从用户接收第一语音输入。可利用第一自动语音识别系统来处理第一语音输入以生成第一识别结果。可接收指示第一识别结果中的潜在错误的输入。该输入可用于改善第一识别结果。例如,该输入可包括第二语音输入,该第二语音输入是第一语音输入的重复。可利用第二自动语音识别系统来处理第二语音输入以生成第二识别结果。

Improving automatic speech recognition based on user feedback

The present invention provides a system and process for processing speech in a digital assistant. In an exemplary process, a first speech input may be received from a user. The first automatic speech recognition system can be used to process the first speech input to generate a first identification result. An input that indicates a potential error in the first identification result may be received. The input can be used to improve the first identification result. For example, the input may include a second speech input, the second speech input being the repetition of the first speech input. A second automatic speech recognition system can be used to process the second speech input to generate a second recognition result.

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本专利申请要求于2014年8月28日提交的标题为“AUTOMATICSPEECHRECOGNITIONBASEDONUSERFEEDBACK”的美国临时专利申请62/043,041和于2015年1月7日提交的标题为“AUTOMATICSPEECHRECOGNITIONBASEDONUSERFEEDBACK”的美国非临时专利申请14/591,754的优先权,这两个美国专利申请全文以引用方式并入本文以用于所有目的。
本文整体涉及自动语音识别,更具体地涉及基于用户反馈来改善自动语音识别
技术介绍
自动语音识别(ASR)系统可能遭遇转录错误。这些错误的出现可能是由于多种原因,诸如混乱的语音输入、背景嘈杂的语音输入、或者包含发音与其它字词类似的字词的语音输入。另外,在实时ASR系统中,为了实现可接受的迟延时间,可对准确性作出妥协。例如,可实现较小词汇模型或稳健性较低的语音识别引擎。这些妥协可能促成转录错误。常规地,ASR系统所接收的每个语音输入可进行相同地处理。然而,相同地处理所有语音输入可能导致类似的转录错误反复地重新出现,这可能导致用户方灰心沮丧以及差的用户体验。
技术实现思路
本文提供了用于在数字助理中处理语音的系统和过程。在示例性过程中,可从用户接收第一语音输入。可利用第一自动语音识别系统处理第一语音输入来生成第一识别结果。可接收指示第一识别结果中的潜在错误的输入。该输入可用于改善第一识别结果。在一些实施例中,该输入可包括第二语音输入,该第二语音输入是第一语音输入的重复。可利用第二自动语音识别系统处理第二语音输入来生成第二识别结果。在一些实施例中,可提示用户重复第一语音输入的至少一部分。可从用户输入接收第三语音输入,该第三语音输入是第一语音输入的重复。可利用第二自动语音识别系统处理第三语音输入来生成第三识别结果。在一些实施例中,可利用第二自动语音识别系统处理第一语音输入来生成第四识别结果。附图说明图1示出了根据各种实施例的用于实施数字助理的系统和环境。图2示出了根据各种实施例的实施数字助理的客户端侧部分的用户设备。图3A示出了根据各种实施例的数字助理系统或其服务器部分。图3B示出了根据各种实施例的图3A所示数字助理的功能。图4A-图4B示出了根据各种实施例的用于处理语音的过程。图5示出了根据各种示例的电子设备的功能框图。具体实施方式在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。如上所述,来自ASR系统的类似错误的反复重新出现可导致差的用户体验。在本文所述的各种实施例中,提供了用于基于用户反馈来改善语音处理的系统和过程。在一些实施例中,语音处理可在数字助理中执行。在一个示例性过程中,可从用户接收第一语音输入。可利用第一ASR系统处理第一语音输入来生成第一识别结果。可接收指示第一识别结果中的潜在错误的输入。该输入可用于生成改善的识别结果,由此降低类似错误重新出现的概率。在一些实施例中,该输入可包括第二语音输入,该第二语音输入是第一语音输入的重复。具体地,用户可重复第一语音输入来指示第一识别结果中的潜在错误。可利用第二ASR系统处理第二语音输入来生成第二识别结果。在其他实施例中,可提示用户重复第一语音输入的至少一部分。可从用户输入接收第三语音输入,该第三语音输入是第一语音输入的重复。可利用第二ASR系统处理第三语音输入来生成第三识别结果。在另外的实施例中,可利用第二ASR系统处理第一语音输入来生成第四识别结果。在一些实施例中,第二ASR系统可比第一ASR系统准确。因此,第二识别结果、第三识别结果和第四识别结果可各自都比第一识别结果准确。另外,在一些实施例中,可通过利用第一识别结果和利用第二ASR系统所生成的识别结果(例如第二识别结果、第三识别结果或第四识别结果)执行ASR系统组合来确定组合结果。组合结果可比第一识别结果准确。与更准确的第二ASR系统和与执行ASR系统组合相关联的更长的迟延和计算时间可以是由于降低类似错误重新出现的概率而作出的可接受的妥协。具体地,在发现与第一识别结果相关联的错误之后,用户可能偏向于等待更长时间以获得后续正确结果,而不是在较短时间段内获得相同错误。因此可实施本文所公开的系统和过程以降低在语音处理期间类似错误重新出现的概率,由此改善用户体验。1.系统和环境图1示出了根据各种实施例的系统100的框图。在一些实施例中,系统100可实施数字助理。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”可以是指解译口头和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了按照推断出的用户意图行事,系统可执行以下中的一个或多个:利用被设计用于实现所推断出的用户意图的步骤和参数来识别任务流,将来自推断出的用户意图的具体要求输入到任务流中;通过调用程序、方法、服务、API等来执行任务流;以及生成对用户的听觉(例如,语音)和/或视觉形式的输出响应。具体地,数字助理可以能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求可以要么寻求数字助理作出信息性回答,要么寻求数字助理执行任务。针对用户请求的令人满意的响应可以是提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如,用户可向数字助理提出诸如“我现在在哪里?”之类的问题。基于用户的当前位置,数字助理可能回答“你在中央公园西门附近。”用户还可请求执行任务,例如“请邀请我的朋友下周来参加我女朋友的生日聚会。”作为响应,数字助理可通过讲出“好的,马上”来确认请求,并然后代表用户将合适的日历邀请发送到用户的电子通讯录中列出的用户朋友中的每个朋友。在执行所请求的任务期间,数字助理有时可在涉及很长时间段上多次信息交换的持续对话中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外,数字助理还可提供其他视觉或听觉形式的响应,例如作为文本、警报、音乐、视频、动画等。数字助理的示例在提交于2011年1月10日的名为“IntelligentAutomatedAssistant”的申请人的美国技术专利申请序列号12/987,982中有所描述,其全部公开内容以引用方式并入本文。如图1中所示,在一些实施例中,可根据客户端-服务器模型来实施数字助理。数字助理可包括在用户设备104a、104b上执行的客户端侧部分102a、102b(后文称作“DA客户端102”)和在服务器系统108上执行的服务器侧部分106(后文称作“DA服务器106”)。DA客户端102可通过一个或多个网络110与DA服务器106通信。DA客户端102可提供客户端侧功能诸如面向用户的输入和输出处理,并且与DA服务器106通信。DA服务器106可为任意数量的DA客户端102提供服务器侧功能,该任意数量的DA客户端102各自位于相应的用户设备104上。在一些实施例中,DA服务器106可包括面向客户端的I/O接口112、一个或多个处理模块114、数据与模型116、以及到外部服务的I/O接口本文档来自技高网...
基于用户反馈来改善自动语音识别

【技术保护点】
一种用于在数字助理中处理语音的方法,所述方法包括:在具有处理器和存储用于由所述处理器执行的一个或多个程序的存储器的电子设备处:从用户接收第一语音输入;利用第一自动语音识别系统来处理所述第一语音输入以生成第一识别结果;从所述用户接收指示所述第一识别结果中的潜在错误的输入,其中所述输入包括第二语音输入;以及利用第二自动语音识别系统来处理所述第二语音输入以生成第二识别结果。

【技术特征摘要】
【国外来华专利技术】2014.08.28 US 62/043,041;2015.01.07 US 14/591,7541.一种用于在数字助理中处理语音的方法,所述方法包括:在具有处理器和存储用于由所述处理器执行的一个或多个程序的存储器的电子设备处:从用户接收第一语音输入;利用第一自动语音识别系统来处理所述第一语音输入以生成第一识别结果;从所述用户接收指示所述第一识别结果中的潜在错误的输入,其中所述输入包括第二语音输入;以及利用第二自动语音识别系统来处理所述第二语音输入以生成第二识别结果。2.根据权利要求1所述的方法,其中所述第二语音输入是所述第一语音输入的至少一部分的重复。3.根据权利要求1所述的方法,还包括:确定所述第二语音输入是否包括所述第一语音输入的至少一部分的重复,其中响应于确定所述第二语音输入包括所述第一语音输入的至少一部分的重复,利用所述第二自动语音识别系统来处理所述第二语音输入以生成所述第二识别结果。4.根据权利要求3所述的方法,其中确定所述第二语音输入是否包括所述第一语音输入的至少一部分的重复包括:相对于所述第一语音输入的对应部分的音素转录来确定所述第二语音输入的音素转录的错误率是否低于预先确定的值。5.根据权利要求3所述的方法,其中确定所述第二语音输入是否包括所述第一语音输入的至少一部分的重复包括:将所述第二语音输入的音频波形与所述第一语音输入的对应部分的音频波形进行比较。6.根据权利要求1所述的方法,还包括:执行基于所述第一识别结果的动作。7.根据权利要求6所述的方法,其中所述动作包括在所述电子设备上显示所述第一识别结果的文本的至少一部分。8.根据权利要求6所述的方法,其中所述第一语音输入包含用户请求,并且其中所述动作包括执行用于满足所述用户请求的任务。9.根据权利要求1所述的方法,其中所述第一自动语音识别系统和所述第二自动语音识别系统是相同的自动语音识别系统。10.根据权利要求1所述的方法,其中所述第一自动语音识别系统和所述第二自动语音识别系统是不同的自动语音识别系统。11.根据权利要求10所述的方法,其中所述第一自动语音识别系统包括一个或多个语音识别模型,并且所述第二自动语音识别系统包括与所述第一自动语音识别系统的所述一个或多个语音识别模型不同的一个或多个语音识别模型。12.根据权利要求10所述的方法,其中所述第一自动语音识别系统包括语音识别引擎,并且所述第二自动语音识别系统包括与所述第一自动语音识别系统的所述语音识别引擎不同的语音识别引擎。13.根据权利要求1所述的方法,还包括:基于所述第一识别结果和所述第二识别结果来确定组合结果。14.根据权利要求13所述的方法,还包括:执行基于所述组合结果的动作。15.根据权利要求13所述的方法,其中所述组合结果是通过利用所述第一识别结果和所述第二识别结果执行自动语音识别系统组合来确定的。16.根据权利要求15所述的方法,其中执行自动语音识别系统组合包括实施以下中的至少一者:识别输出表决错误减少、交叉适应、混淆网络组合和网格组合。17.根据权利要求1所述的方法,还包括:执行基于所述第二识别结果的动作。18.一种计算机可读存储介质,所述计算机可读存储介质包含用于执行根据权利要求1至17中任一项所述的方法的计算机可执行指令。19.一种系统,所述系统包括:根据权利要求18所述的计算机可读存储介质;和能够执行所述计算机可执行指令的处理器。20.一种电子设备,所述电子设备包括:用于从用户接收第一语音输入的装置;用于利用第一自动语音识别系统来处理所述第一语音输入以生成第一识别结果的装置;用于从所述用户接收指示第一文本中的潜在错误的输入的装置,其中所述输入包括第二语音输入;和用于利用第二自动语音识别系统来处理所述第二语音输入以生成第二识别结果的装置。21.一种用于在数字助理中处理语音的方法,所述方法包括:在具有处理器和存储用于由所述处理器执行的一个或多个程序的存储器的电子设备处:从用户接收第一语音输入;利用第一自动语音识别系统来处理所述第一语音输入以生成第一识别结果;从所述用户接收指示所述第一识别结果中的潜在错误的输入;提示所述用户重复所述第一语音输入的至少一部分;从所述用户接收第二语音输入;以及利用第二自动语音识别系统来处理所述第二语音输入以生成第二识别结果。22.根据权利要求21所述的方法,其中所述输入为包括预先确定的话语的语音输入。23.根据权利要求21所述的方法,其中所述输入为所述电子设备的预先确定的运动。24.根据权利要求21所述的方法,其中所述输入为示能表示的选择。25.根据权利要求21所述的方法,其中所述第一识别结果的文本的至少一部分显示在所述电子设备上,并且其中所述输入是所显示的文本的至少一部分的选择。26.根据权利要求21所述的方法,其中所述输入与提议的任务的拒绝相关联。27.根据权利要求21所述的方法,还包括:识别所述第一语音输入的与所述第一识别结果中的所述潜在错误对应的部分。28.根据权利要求27所述的方法,其中利用所述第一自动语音识别系统来处理所述第一语音输入包括确定所述第一识别结果的文本中的每个字词的置信度量度,并且其中所述第一语音输入的与所述潜在错误相关联的所述部分是基于所述文本中每个字词的所述置信度量度来识别的。29.根据权利要求27所述的方法,其中提示所述用户重复所述第一语音输入的与所述潜在错误对应的所识别的部分。30.根据权利要求21所述的方法,还包括:执行与所述第一语音输入相关联的动作。31.根据权利要求30所述的方法,其中所述动作包括在所述电子设备上显示所述第一识别结果的文本的至少一部分。32.根据权利要求30所述的方法,其中所述第一语音输入包含用户请求,并且其中所述动作包括执行用于满足所述用户请求的任务。33.根据权利要求21所述的方法,其中所述第一自动语音识别系统和所述第二自动语音识别系统是相同的自动语音识别系统。34.根据权利要求21所述的方法,其中所述第一自动语音识别系统和所述第二自动语音识别系统是不同的自动语音识别系统。35.根据权利要求34所述的方法,其中所述第一自动语音识别系统包括一个或多个语音识别模型,并且所述第二自动语音识别系统包括与所述第一自动语音识别系统的所...

【专利技术属性】
技术研发人员:M·克里斯纳莫尔泰M·鲍立克
申请(专利权)人:苹果公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1