基于客户端计算的内容元数据的话音查询QoS制造技术

技术编号:30070797 阅读:17 留言:0更新日期:2021-09-18 08:23
一种方法包括从用户设备接收自动语音识别(ASR)请求,该请求包括由用户设备捕获的语音输入和与语音输入相关联的内容元数据。内容元数据由用户设备生成。方法还包括:基于与语音输入相关联的内容元数据来确定针对ASR请求的优先级分数,且将ASR请求缓存在未决ASR请求的预处理的待办事项中,每个未决ASR请求具有对应优先级分数。预处理的待办事项中的未决ASR请求以优先级分数的顺序被排名。方法还包括从预处理的待办事项中向后端侧ASR模块提供未决ASR请求中的一个或多个,其中,与较高优先级分数相关联的未决ASR请求在与较低优先级分数相关联的未决ASR请求之前被处理。数相关联的未决ASR请求之前被处理。数相关联的未决ASR请求之前被处理。

【技术实现步骤摘要】
【国外来华专利技术】基于客户端计算的内容元数据的话音查询QoS


[0001]本公开涉及基于客户端计算的内容元数据的话音查询服务质量(QoS)。

技术介绍

[0002]启用语音的环境(例如家庭、工作场所、学校、汽车等)允许用户向基于计算机的系统大声说出查询或命令,该系统对查询进行处理和回答且/或基于命令来执行功能。启用语音的环境可以使用分布在环境的各个房间或区域中的连接的麦克风设备的网络来实现。这些设备可以使用热词来帮助辨别给定话语何时针对系统,而不是针对环境中存在的另一个人的话语。因此,设备可以在睡眠状态或休眠状态下操作且仅当检测到的话语包括热词时才唤醒。发生在后端服务器处的查询处理成本很高,且服务器可能在查询多于在给定时间该服务器可以处置的查询的情况下变得过载。例如,在大型事件期间存在于电视节目/商业广告中的热词可能使服务器变得过载,从而导致中断。

技术实现思路

[0003]话音启用的设备(例如执行话音助手的用户设备)允许用户大声说出查询或命令且对查询进行处理和回答且/或基于命令来执行功能。通过使用“热词”(也被称为“关键字”、“注意词”、“唤醒短语/词”、“触发短语”或“话音动作发起命令”),其中,约好保留了被说出以引起对话音启用的设备的注意的预定术语/短语,话音启用的设备能够在针对系统的话语(即,以发起用于处理话语中的热词之后的一个或多个术语的唤醒处理)与针对环境中的个人的话语之间进行辨别。通常,话音启用的设备在睡眠状态或低功率状态下操作以节省电池电力且处理输入音频数据以检测口述热词。例如,当处于低功率状态时,话音启用的设备经由麦克风捕获输入音频且使用所训练的热词检测器以检测输入音频中的热词的存在。当热词在输入音频中被检测到时,话音启用的设备发起唤醒处理以用于处理热词和/或热词之后的输入音频中的任何其他术语。
[0004]通常,在话音启用的设备通过检测语音话语(例如输入音频)中存在热词而唤醒之后,话音启用的设备通过网络将热词和热词之后的一个或多个其他术语发送给基于服务器的处理堆栈(也称为查询处理后端),基于服务器的处理堆栈至少包括被配置成处理热词和/或热词之后的任何其他术语的自动语音识别器(ASR)。在此,ASR可以将接收到的音频视为ASR请求且将热词和/或热词之后的其他术语转录成对应文本。文本可以被提供给解释层以确定由输入音频指定的话音查询且将查询提供给适当的组件以执行与查询相关的动作。因此,当话音启用的设备的用户发出以下语音时:“嘿Google,哪些餐馆现在仍在营业?”,话音启用的设备可以响应于检测到热词(“嘿Google”)而唤醒,且将对应于话音查询的热词之后的术语(“附近的哪些餐馆现在仍在营业?”)提供给基于服务器的处理堆栈以进行处理。在该示例中,基于服务器的处理堆栈的ASR将话音查询转录成对应文本,解释层将确定需要搜索附近餐馆的营业时间,且搜索引擎将获得包含当前营业的附近餐馆的搜索结果列表。搜索结果可以被提供回话音启用的设备以用于显示或可听输出。在一些场景中,基于服务
器的处理堆栈还包括文本到语音(TTS)转换器,该文本到语音转换器被配置成将搜索结果列表转换成合成语音,该合成语音被提供回话音启用的设备以用于其上的可听输出。
[0005]基于服务器的处理堆栈被配置成处理从与整个用户群相关联的多个话音启用的设备接收到的话音查询。这种情况可能包括数百万个话音启用的设备发送话音查询以供基于服务器的处理堆栈处理。处理话音查询是昂贵的任务,且在一些情况下,基于服务器的处理堆栈在相比于在给定时间该基于服务器的处理堆栈可以处理的查询而言查询太多的情况下变得过载。例如,当热词或听起来类似热词的其他术语存在于大型电视节目事件(例如超级碗期间的商业广告)中时,附近的话音启用的设备(例如靠近家庭中的电视)可能检测到热词且向基于服务器的处理堆栈发出非预期话音查询,从而导致基于服务器的处理堆栈的业务中出现非常大的尖峰。虽然可以想象基于服务器的处理堆栈简单地丢弃不是由真实用户发起和/或时间不紧迫的话音查询,但很难在不开始昂贵的处理的情况下标识这些查询。
[0006]本文中的实现针对一种从话音启用的设备(例如用户设备)接收ASR请求的查询处理后端(例如基于服务器的处理堆栈)。除了每个ASR请求包括由用户设备捕获的对应语音输入(包括用于处理的话音查询)之外,每个ASR请求还包括与由话音启用的设备生成的语音输入相关联的内容元数据。基于与语音输入相关联的内容元数据,查询处理后端能够确定针对每个ASR请求的优先级分数,且将ASR请求缓存在未决ASR请求的预处理的待办事项中,每个未决ASR请求具有对应优先级分数且以优先级分数的顺序被排名。此后,查询处理后端可以基于后端侧ASR模块的处理可用性将一个或多个未决ASR请求从预处理的待办事项提供给后端侧ASR模块(或查询处理后端的其他组件)。在此,不是后端侧ASR模块通过尝试在先到先得的基础上处理每个未决ASR请求而在业务尖峰期间变得过载,而是ASR请求被优先处理,以使得后端侧ASR模块在处理与较低优先级分数相关联的未决ASR请求之前处理与较高优先级分数相关联的未决ASR请求。当新ASR请求进来时,预处理的待办事项中的未决ASR请求将基于优先级分数被重新排序。在理想情况下,那些与不太可能由真实用户发起和/或时间不紧迫的非预期话音查询相关联的ASR请求被分配较低优先级分数。如此,与较低优先级分数相关联的ASR请求在业务尖峰期间保留在预处理的待办事项中,以使得后端ASR模块将首先处理与较高优先级分数相关联的ASR请求。
[0007]在一些示例中,低于某个阈值的优先级分数可能只会导致对应ASR请求被丢弃。根据内容元数据确定的低优先级分数也可能是对应ASR请求的处理将不成功的强指示符。例如,内容元数据可能指示与语音输入相关联的音频的质量极差,且因此,较差音频质量可以提供后端ASR模块将难以成功地将音频数据转录成对应文本的指示。同时,与由话音启用的设备捕获的语音相关联的较差音频质量也可能指示说出热词(或类似发音的词)的用户不靠近话音启用的设备,且因此,很可能不旨在向话音启用的设备提供语音输入。内容元数据还可以指示语音输入是否有可能由与话音启用的设备相关联的用户说出。例如,话音启用的设备上的热词检测器可以将语音输入与针对该用户的音频配置文件进行比较,且确定语音输入是否更有可能由该用户说出。当内容元数据确实指示用户确实有可能说出语音输入时,对应ASR请求可以被分配比在不同用户说出语音输入的情况下更高的优先级分数。另一方面,当内容元数据指示不同用户或来自音频广播设备(例如TV、音乐扬声器或其他能够输出声学声音的非人类源)的广播音频发起语音输入时,对应ASR请求可能被分配低优先级分
数。内容元数据可以包括由话音启用的设备计算/生成且被包括在被提供给查询处理后端的ASR请求中的任何类型的数据,以使得查询处理后端可以优先处理ASR请求的重要性,而不引起对ASR请求的任何处理(或至少极有限的处理量)。鉴于前述内容,与语音输入相关联的内容元数据表示对应ASR请求将被后端侧ASR模块成功处理的可能性和/或对应ASR本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在查询处理后端的数据处理硬件处接收来自用户设备的自动语音识别(ASR)请求,所述ASR请求包括:语音输入,其被所述用户设备捕获,所述语音输入包括话音查询;以及内容元数据,其与所述语音输入相关联,所述内容元数据由所述用户设备生成;由所述数据处理硬件基于与所述语音输入相关联的所述内容元数据来确定针对所述ASR请求的优先级分数;由所述数据处理硬件将所述ASR请求缓存在未决ASR请求的预处理的待办事项中,每个未决ASR请求具有对应优先级分数,所述预处理的待办事项中的所述未决ASR请求以所述优先级分数的顺序被排名;以及由所述数据处理硬件从所述预处理的待办事项基于后端侧ASR模块的处理可用性来将所述未决ASR请求中的一个或多个提供给所述后端侧ASR模块,其中,与较高优先级分数相关联的未决ASR请求在与较低优先级分数相关联的未决ASR请求之前被所述后端侧ASR模块处理。2.根据权利要求1所述的方法,其中,所述后端侧ASR模块被配置成响应于接收到来自未决ASR请求的所述预处理的待办事项的每个未决ASR请求,处理所述未决ASR请求以生成针对与所述未决ASR请求相关联的对应语音输入的ASR结果。3.根据权利要求1或2所述的方法,进一步包括响应于在未决ASR请求的所述预处理的待办事项中缓存一个或多个新ASR请求,由所述数据处理硬件144以所述优先级分数的顺序对所述预处理的待办事项中的所述未决ASR请求进行重新排名。4.根据权利要求1至3中任一项所述的方法,进一步包括由所述数据处理硬件拒绝驻留在所述预处理的待办事项中达满足超时阈值的时间段的任何未决ASR请求被所述后端侧ASR模块处理。5.根据权利要求1至4中任一项所述的方法,进一步包括响应于接收到具有小于优先级分数阈值的相应优先级分数的新ASR请求,由所述数据处理硬件拒绝所述新ASR请求被所述后端侧ASR模块处理。6.根据权利要求1至5中任一项所述的方法,其中,与所述语音输入相关联的所述内容元数据表示所述对应ASR请求将被所述后端侧ASR模块成功处理的可能性。7.根据权利要求1至6中任一项所述的方法,其中,与所述语音输入相关联的所述内容元数据表示所述对应ASR请求的处理将对与所述用户设备相关联的用户有影响的可能性。8.根据权利要求1至7中任一项所述的方法,其中,与所述语音输入相关联且由所述用户设备生成的所述内容元数据包括以下至少一个:登录指示符,其指示与所述用户设备相关联的用户是否被登录到所述用户设备;针对所述语音输入的说话者标识分数,其指示所述语音输入匹配与所述用户设备相关联的说话者配置文件的可能性;针对所述语音输入的广播语音分数,其指示所述语音输入对应于来自非人类源的广播或合成语音输出的可能性;热词置信度分数,其指示所述语音输入中的所述话音查询之前的一个或多个术语对应于预定义的热词的可能性;
活动指示符,其指示所述用户设备与所述查询处理后端之间是否正在进行多轮交互;所述语音输入的音频信号分数;空间定位分数,其指示用户相对于所述用户设备的距离和位置;所述语音输入的转录,其由驻留在所述用户设备上的设备上ASR模块生成;用户设备行为信号,其指示所述用户设备的当前行为;或环境情况信号,其指示相对于所述用户设备的当前环境情况。9.根据权利要求1至8中任一项所述的方法,其中,所述用户设备被配置成响应于在口述话语中检测到在所述话音查询之前的热词:捕获包括所述话音查询的所述语音输入;生成与所述语音输入相关联的所述内容元数据;以及向所述数据处理硬件传输所述对应ASR请求。10.根据权利要求9所述的方法,其中,所述语音输入进一步包括所述热词。11.根据权利要求1至10中任一项所述的方法,进一步包括将设备上处理指令从所述数据处理硬件传输给所述用户设备,所述设备上处理指令提供当所述用户设备确定所述查询处理后端过载时用于本地处理由所述用户设备在设备上捕获到的任何新语音输入的至少一部分的一个或多个准则。12.根据权利要求11所述的方法,其中,所述用户设备被配置成通过以下至少一个确定所述查询处理后端过载:获得与由所述用户设备传达给所述数据处理硬件的先前ASR请求相关联的历史数据;从所述数据处理硬件接收在所述查询处理后端处过去和/或预测的过载情况的计划表;或从运行中的所述数据处理硬件接收指示所述处理后端处的当前过载情况的过载情况状态通知。13.根据权利要求11或12所述的方法,其中,用于本地处理任何新语音输入的至少一部分的所述一个或多个准则包括指导所述用户设备执行以下至少一个:使用驻留在设备上的本地ASR模块转录新语音输入;解释所述新语音输入的所述转录以确定对应于所述新语音输入的话音查询;确定所述用户设备是否可以执行与对应于所述新语音输入的所述话音查询相关联的动作;或当所述用户设备无法执行与所述话音查询相关联的所述动作时,将所述语音输入的所述转录传输给所述查询处理系统。14.根据权利要求11至13中任一项所述的方法,其中,提供所述一个或多个准则的所述设备上处理指令包括所述内容元数据的对应部分必须满足以便所述用户设备将所述ASR请求传输给所述查询处理后端的一个或多个阈值。15.根据权利要求14所述的方法,其中,当所述阈值中的至少一个不被满足时,所述设备上处理指令进一步指导所述用户设备丢弃所述ASR请求。16.一种系统,包括:查询处理后端的数据处理硬件;以...

【专利技术属性】
技术研发人员:M谢里菲A克拉库恩
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1