The present invention provides a system and process for processing speech in a digital assistant. In an exemplary process, a first speech input may be received from a user. The first automatic speech recognition system can be used to process the first speech input to generate a first identification result. An input that indicates a potential error in the first identification result may be received. The input can be used to improve the first identification result. For example, the input may include a second speech input, the second speech input being the repetition of the first speech input. A second automatic speech recognition system can be used to process the second speech input to generate a second recognition result.
【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本专利申请要求于2014年8月28日提交的标题为“AUTOMATICSPEECHRECOGNITIONBASEDONUSERFEEDBACK”的美国临时专利申请62/043,041和于2015年1月7日提交的标题为“AUTOMATICSPEECHRECOGNITIONBASEDONUSERFEEDBACK”的美国非临时专利申请14/591,754的优先权,这两个美国专利申请全文以引用方式并入本文以用于所有目的。
本文整体涉及自动语音识别,更具体地涉及基于用户反馈来改善自动语音识别。
技术介绍
自动语音识别(ASR)系统可能遭遇转录错误。这些错误的出现可能是由于多种原因,诸如混乱的语音输入、背景嘈杂的语音输入、或者包含发音与其它字词类似的字词的语音输入。另外,在实时ASR系统中,为了实现可接受的迟延时间,可对准确性作出妥协。例如,可实现较小词汇模型或稳健性较低的语音识别引擎。这些妥协可能促成转录错误。常规地,ASR系统所接收的每个语音输入可进行相同地处理。然而,相同地处理所有语音输入可能导致类似的转录错误反复地重新出现,这可能导致用户方灰心沮丧以及差的用户体验。
技术实现思路
本文提供了用于在数字助理中处理语音的系统和过程。在示例性过程中,可从用户接收第一语音输入。可利用第一自动语音识别系统处理第一语音输入来生成第一识别结果。可接收指示第一识别结果中的潜在错误的输入。该输入可用于改善第一识别结果。在一些实施例中,该输入可包括第二语音输入,该第二语音输入是第一语音输入的重复。可利用第二自动语音识别系统处理第二语音输入来生成第二识别结果。在一些实施 ...
【技术保护点】
一种用于在数字助理中处理语音的方法,所述方法包括:在具有处理器和存储用于由所述处理器执行的一个或多个程序的存储器的电子设备处:从用户接收第一语音输入;利用第一自动语音识别系统来处理所述第一语音输入以生成第一识别结果;从所述用户接收指示所述第一识别结果中的潜在错误的输入,其中所述输入包括第二语音输入;以及利用第二自动语音识别系统来处理所述第二语音输入以生成第二识别结果。
【技术特征摘要】
【国外来华专利技术】2014.08.28 US 62/043,041;2015.01.07 US 14/591,7541.一种用于在数字助理中处理语音的方法,所述方法包括:在具有处理器和存储用于由所述处理器执行的一个或多个程序的存储器的电子设备处:从用户接收第一语音输入;利用第一自动语音识别系统来处理所述第一语音输入以生成第一识别结果;从所述用户接收指示所述第一识别结果中的潜在错误的输入,其中所述输入包括第二语音输入;以及利用第二自动语音识别系统来处理所述第二语音输入以生成第二识别结果。2.根据权利要求1所述的方法,其中所述第二语音输入是所述第一语音输入的至少一部分的重复。3.根据权利要求1所述的方法,还包括:确定所述第二语音输入是否包括所述第一语音输入的至少一部分的重复,其中响应于确定所述第二语音输入包括所述第一语音输入的至少一部分的重复,利用所述第二自动语音识别系统来处理所述第二语音输入以生成所述第二识别结果。4.根据权利要求3所述的方法,其中确定所述第二语音输入是否包括所述第一语音输入的至少一部分的重复包括:相对于所述第一语音输入的对应部分的音素转录来确定所述第二语音输入的音素转录的错误率是否低于预先确定的值。5.根据权利要求3所述的方法,其中确定所述第二语音输入是否包括所述第一语音输入的至少一部分的重复包括:将所述第二语音输入的音频波形与所述第一语音输入的对应部分的音频波形进行比较。6.根据权利要求1所述的方法,还包括:执行基于所述第一识别结果的动作。7.根据权利要求6所述的方法,其中所述动作包括在所述电子设备上显示所述第一识别结果的文本的至少一部分。8.根据权利要求6所述的方法,其中所述第一语音输入包含用户请求,并且其中所述动作包括执行用于满足所述用户请求的任务。9.根据权利要求1所述的方法,其中所述第一自动语音识别系统和所述第二自动语音识别系统是相同的自动语音识别系统。10.根据权利要求1所述的方法,其中所述第一自动语音识别系统和所述第二自动语音识别系统是不同的自动语音识别系统。11.根据权利要求10所述的方法,其中所述第一自动语音识别系统包括一个或多个语音识别模型,并且所述第二自动语音识别系统包括与所述第一自动语音识别系统的所述一个或多个语音识别模型不同的一个或多个语音识别模型。12.根据权利要求10所述的方法,其中所述第一自动语音识别系统包括语音识别引擎,并且所述第二自动语音识别系统包括与所述第一自动语音识别系统的所述语音识别引擎不同的语音识别引擎。13.根据权利要求1所述的方法,还包括:基于所述第一识别结果和所述第二识别结果来确定组合结果。14.根据权利要求13所述的方法,还包括:执行基于所述组合结果的动作。15.根据权利要求13所述的方法,其中所述组合结果是通过利用所述第一识别结果和所述第二识别结果执行自动语音识别系统组合来确定的。16.根据权利要求15所述的方法,其中执行自动语音识别系统组合包括实施以下中的至少一者:识别输出表决错误减少、交叉适应、混淆网络组合和网格组合。17.根据权利要求1所述的方法,还包括:执行基于所述第二识别结果的动作。18.一种计算机可读存储介质,所述计算机可读存储介质包含用于执行根据权利要求1至17中任一项所述的方法的计算机可执行指令。19.一种系统,所述系统包括:根据权利要求18所述的计算机可读存储介质;和能够执行所述计算机可执行指令的处理器。20.一种电子设备,所述电子设备包括:用于从用户接收第一语音输入的装置;用于利用第一自动语音识别系统来处理所述第一语音输入以生成第一识别结果的装置;用于从所述用户接收指示第一文本中的潜在错误的输入的装置,其中所述输入包括第二语音输入;和用于利用第二自动语音识别系统来处理所述第二语音输入以生成第二识别结果的装置。21.一种用于在数字助理中处理语音的方法,所述方法包括:在具有处理器和存储用于由所述处理器执行的一个或多个程序的存储器的电子设备处:从用户接收第一语音输入;利用第一自动语音识别系统来处理所述第一语音输入以生成第一识别结果;从所述用户接收指示所述第一识别结果中的潜在错误的输入;提示所述用户重复所述第一语音输入的至少一部分;从所述用户接收第二语音输入;以及利用第二自动语音识别系统来处理所述第二语音输入以生成第二识别结果。22.根据权利要求21所述的方法,其中所述输入为包括预先确定的话语的语音输入。23.根据权利要求21所述的方法,其中所述输入为所述电子设备的预先确定的运动。24.根据权利要求21所述的方法,其中所述输入为示能表示的选择。25.根据权利要求21所述的方法,其中所述第一识别结果的文本的至少一部分显示在所述电子设备上,并且其中所述输入是所显示的文本的至少一部分的选择。26.根据权利要求21所述的方法,其中所述输入与提议的任务的拒绝相关联。27.根据权利要求21所述的方法,还包括:识别所述第一语音输入的与所述第一识别结果中的所述潜在错误对应的部分。28.根据权利要求27所述的方法,其中利用所述第一自动语音识别系统来处理所述第一语音输入包括确定所述第一识别结果的文本中的每个字词的置信度量度,并且其中所述第一语音输入的与所述潜在错误相关联的所述部分是基于所述文本中每个字词的所述置信度量度来识别的。29.根据权利要求27所述的方法,其中提示所述用户重复所述第一语音输入的与所述潜在错误对应的所识别的部分。30.根据权利要求21所述的方法,还包括:执行与所述第一语音输入相关联的动作。31.根据权利要求30所述的方法,其中所述动作包括在所述电子设备上显示所述第一识别结果的文本的至少一部分。32.根据权利要求30所述的方法,其中所述第一语音输入包含用户请求,并且其中所述动作包括执行用于满足所述用户请求的任务。33.根据权利要求21所述的方法,其中所述第一自动语音识别系统和所述第二自动语音识别系统是相同的自动语音识别系统。34.根据权利要求21所述的方法,其中所述第一自动语音识别系统和所述第二自动语音识别系统是不同的自动语音识别系统。35.根据权利要求34所述的方法,其中所述第一自动语音识别系统包括一个或多个语音识别模型,并且所述第二自动语音识别系统包括与所述第一自动语音识别系统的所...
【专利技术属性】
技术研发人员:M·克里斯纳莫尔泰,M·鲍立克,
申请(专利权)人:苹果公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。