减弱自动语音识别处理结果制造技术

技术编号:38412802 阅读:31 留言:0更新日期:2023-08-07 11:17
用于减弱语音处理的方法(300)包括:在声音启用装置(110)处接收麦克风触发事件(202)的指示,该指示用于指示通过语音与装置可能的交互,其中,该装置具有麦克风(116),麦克风(116)在打开时被配置为捕捉语音。响应于接收麦克风触发事件的指示,方法还包括指令麦克风打开或在持续时间窗口(212)内保持打开,以捕捉音频流(16),以及将由打开的麦克风捕捉的音频流提供给语音识别系统(150)。在持续时间窗口期间,方法进一步包括基于持续时间窗口的功能来减弱语音识别处理的等级(222),以及指令语音识别系统在音频流上使用语音识别处理的减弱的等级(204,222)。222)。222)。

【技术实现步骤摘要】
【国外来华专利技术】减弱自动语音识别处理结果


[0001]本公开涉及减弱自动语音识别结果。

技术介绍

[0002]用户经常通过数字助理界面与声音启用装置(诸如智能电话、智能手表和智能扬声器)进行交互。这些数字助理界面使得用户能够完全通过自然的会话交互来完成任务并获得他们持有的问题的答案。
[0003]在理想情况下,当与数字助理界面会话时,用户应当能够经由指向他们运行数字助理界面的声音启用装置的口头请求来进行通信,就像用户在与另一个人交谈。数字助理界面会将这些口头请求提供给自动语音识别器,以处理和识别口头请求,从而能够执行动作。然而在实践中,装置始终响应这些口头请求是有挑战性的,因为在资源受限的声音启用装置(诸如智能手机或智能手表)上持续运行语音识别的成本极其高昂。

技术实现思路

[0004]本公开的一个方面提供一种减弱自动语音识别处理的方法。方法包括:在声音启用装置的数据处理硬件处接收麦克风触发事件的指示,该指示用于指示通过语音与声音启用装置可能的用户交互,其中声音启用装置具有麦克风,麦克风在打开时被配置为捕捉语音,以用于通过自动语音识别(本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法(300),包括:在声音启用装置(110)的数据处理硬件(112)处接收麦克风触发事件(202)的指示,所述指示用于指示通过语音与所述声音启用装置(110)可能的用户交互(12),所述声音启用装置(110)具有麦克风(116),所述麦克风(116)在打开时被配置为捕捉语音,以用于通过自动语音识别(ASR)系统(150)识别;响应于(122)接收所述麦克风触发事件(202)的所述指示:通过所述数据处理硬件(112)指令所述麦克风(116)打开或在打开麦克风持续时间窗口(212)内保持打开,以在所述声音启用装置(110)的环境中捕捉音频流(16);以及通过所述数据处理硬件(112)将由打开的所述麦克风(116)捕捉的所述音频流(16)提供给所述ASR系统(100),以在所述音频流(16)上执行ASR处理;以及当所述ASR系统(150)在由打开的所述麦克风(116)捕捉的所述音频流(16)上执行所述ASR处理时:通过所述数据处理硬件(112)减弱所述ASR系统(150)基于所述打开麦克风持续时间窗口(212)的功能在所述音频流(16)上执行的所述ASR处理的等级;以及通过所述数据处理硬件(112)指令所述ASR系统(150)在由打开的所述麦克风(116)捕捉的所述音频流(16)上使用所述ASR处理的所减弱的等级(204,222)。2.根据权利要求1所述的方法(300),进一步包括,当所述ASR系统(150)在由打开的所述麦克风(116)捕捉的所述音频流(16)上执行所述ASR处理时:通过所述数据处理硬件(112)确定在由打开的所述麦克风(116)捕捉的所述音频流(16)中是否检测到声音活动;其中,减弱所述ASR系统(150)在所述音频流(16)上执行的所述ASR处理的所述等级进一步基于在所述音频流(16)中是否检测到任何声音活动的所述确定。3.根据权利要求1或2所述的方法(300),其中:所述ASR系统(150)最初使用第一处理等级(222)来在所述打开麦克风持续时间窗口(212)开始时在所述音频流(16)上执行所述ASR处理,所述第一处理等级(222)与所述ASR系统(150)的完全处理能力相关联;以及减弱所述ASR系统(150)基于所述打开麦克风持续时间窗口(212)的所述功能在所述音频流(16)上执行的所述ASR处理的所述等级包括:确定自从所述打开麦克风持续时间窗口(212)开始以来是否已经经过第一时间间隔;以及当已经经过所述第一时间间隔后,通过将所述ASR处理的所述等级从所述第一处理等级(222)降低到第二处理等级(222)来减弱所述ASR系统(150)在所述音频流(16)上执行的所述ASR处理的所述等级,所述第二处理等级(222)低于所述第一处理等级(222)。4.根据权利要求1至3中的任一项所述的方法(300),其中,指令所述ASR系统(150)使用所述ASR处理的所减弱的等级(204,222)包括:指令所述ASR系统(150)从在与所述声音启用装置(110)通信的远程服务器(140)上执行所述ASR处理切换为在所述声音启用装置(110)的所述数据处理硬件(112)上执行所述ASR处理。5.根据权利要求1至4中的任一项所述的方法(300),其中,指令所述ASR系统(150)使用所述ASR处理的所减弱的等级(204,222)包括:指令所述ASR系统(150)从使用第一ASR模型
切换为第二ASR模型,以用于在所述音频流(16)上执行所述ASR处理,所述第二ASR模型与所述第一ASR模型相比包括更少的参数。6.根据权利要求1至5中的任一项所述的方法(300),其中,指令所述ASR系统(150)使用所述ASR处理的所减弱的等级(204,222)包括:指令所述ASR系统(150)减少在所述音频流(16)上执行的ASR处理步骤的数量。7.根据权利要求1至6中的任一项所述的方法(300),其中,指令所述ASR系统(150)使用所述ASR处理的所减弱的等级(204,222)包括:指令所述ASR系统(150)调整波束搜索参数,以缩小所述ASR系统(150)的解码搜索空间。8.根据权利要求1至7中的任一项所述的方法(300),其中,指令所述ASR系统(150)使用所述ASR处理的所减弱的等级(204,222)包括:指令所述ASR系统(150)对于所述ASR系统(150)的一个或多个参数执行量化和/或稀疏化。9.根据权利要求1至8中的任一项所述的方法(300),进一步包括:通过所述数据处理硬件(112)获得接收所述麦克风触发事件(202)的所述指示时的当前场境;其中,指令所述ASR系统(150)使用所述ASR处理的所减弱的等级(204,222)包括:指令所述ASR系统(150)基于所述当前场境来对语音识别结果(152)进行偏置。10.根据权利要求1至9中的任一项所述的方法(300),其中,指令所述ASR系统(150)使用所述ASR处理的所减弱的等级(204,222)包括:指令所述ASR系统(150)从在所述音频流(16)上执行所述ASR处理的基于片上系统(100)(基于SOC)的处理切换为在所述音频流(16)上执行所述ASR处理的基于数字信号处理器(基于DSP)的处理。11.根据权利要求1至10中的任一项所述的方法(300),其中,当所述ASR系统(150)在由打开的所述麦克风(116)捕捉的所述音频流(16)上使用所述ASR处理的所减弱的等级(204,222)时,所述ASR系统(150)被配置为:针对与由所述用户说出的查询相对应的音频数据(124)生成语音识别结果(152);以及将所述语音识别结果(152)提供给应用,以执行所述查询指定的动作。12.根据权利要求1至11中的任一项所述的方法(300),进一步包括,在指令所述ASR系统(150)在所述音频流(16)上使用所述ASR处理的所减弱的等级(204,222)之后:在所述数据处理硬件(112)处接收针对所述ASR系统(150)输出的声音查询的语音识别结果(152)的置信度未能满足置信度阈值的指示;以及通过所述数据处理硬件(112)指令所述ASR系统(150):从所减弱的等级(204,222)提高ASR处理的所述等级;以及使用ASR处理的所提高的等级重新处理所述声音查询。13.根据权利要求1至12中的任一项所述的方法(300),进一步包括,当所述ASR系统(150)在由打开的所述麦克风(116)捕捉的所述音频流(16)上执行所述ASR处理时:通过所述数据处理硬件(112)确定何时所述ASR基于所述打开麦克风(116)持续时间的功能在所述音频流(16)上执行的所述ASR处理的所减弱的等级(204,222)等于零;以及当所述ASR处理的所减弱的等级(204,222)等于零时,通过所述数据处理硬件(112)指令所述麦克风(116)关闭。14.根据权利要求1至13中的任一项所述的方法(300),进一步包括:通过所述数据处理
硬件(112)在所述声音启用装置(110)的图形用户界面(120)中显示指示通过所述ASR系统(150)在所述音频流(16)上执行的ASR处理的所减弱的等级(204,222)的图形指示器。15.一种系统...

【专利技术属性】
技术研发人员:马修
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1