两阶段的用户可定制唤醒词检测制造技术

技术编号:30729560 阅读:98 留言:0更新日期:2021-11-10 11:31
本文所描述的是用于从发出的语音检测短语的设备、方法和系统。处理设备可以确定用于使用训练发声集合基于似然比来进行短语识别的第一模型。发声集合可以由第一模型分析以确定第二模型,该第二模型包括训练发声集合中的每一个的训练状态序列,并且其中,每个训练状态序列指示对应训练发声的每个时间间隔的可能状态。关于检测到的发声是否对应于短语的确定可以基于第一模型和第二模型的连结。定可以基于第一模型和第二模型的连结。定可以基于第一模型和第二模型的连结。

【技术实现步骤摘要】
两阶段的用户可定制唤醒词检测
[0001]相关申请
[0002]本申请要求于2020年5月6日提交的美国临时专利申请第63/020,984号的优先权,该美国临时专利申请的全部公开内容特此被并入本文。


[0003]本公开总体上涉及语音识别系统,并且更具体地涉及唤醒词检测。

技术介绍

[0004]越来越多的现代计算设备以语音识别能力为特征,允许用户经由话音命令和自然语音执行各种各样的计算任务。诸如移动电话或智能扬声器之类的设备提供集成虚拟助理,这些集成虚拟助理可以通过在局域网和/或广域网上通信来响应于用户的命令或自然语言请求,以取回被请求的信息或者控制其它设备,例如灯、暖气和空调控制、音频或视频装备等。具有语音识别能力的设备通常保持在低功耗模式下,直到说出了特定词或短语(即,唤醒词或唤醒短语),从而允许用户在设备因此被激活之后使用话音命令来控制设备。
[0005]为了发起基于话音的用户接口,通常会部署唤醒词检测(WWD)。这里,关键词或关键短语被连续地监测,并且当被检测到时,启用进一步的基于话音的交互。早期的WWD系统将高斯混合模型

隐马尔可夫模型(GMM

HMM)用于声学建模。最近,深度学习或深度神经网络(NN)由于其比传统方法更高的准确性而已经成为一种有吸引力的选择。
附图说明
[0006]本实施例在附图的图中通过示例而非限制的方式被示出。
[0007]图1是示出根据本公开的一些实施例的系统的框图。
[0008]图2是示出根据本公开的一些实施例的音频处理设备的框图。
[0009]图3A

3C示出了根据本公开的一些实施例的唤醒词识别模型推导过程。
[0010]图3D示出了根据本公开的一些实施例的传统唤醒词识别过程。
[0011]图4A示出了根据本公开的一些实施例的2阶段模型训练和2阶段唤醒词识别过程。
[0012]图4B示出了根据本公开的一些实施例的唤醒词识别模型。
[0013]图5示出了根据本公开的一些实施例的各种发声的状态序列的图。
[0014]图6示出了根据本公开的一些实施例的用于识别唤醒词的方法的流程图。
[0015]图7示出了根据本公开的一些实施例的用于识别唤醒词的方法的流程图。
[0016]图8示出了根据本公开的一些实施例的用于识别唤醒词的方法的流程图。
[0017]图9示出了可编程片上系统()处理设备的核心架构的实施例。
具体实施方式
[0018]在以下描述中,出于解释的目的,阐述了许多具体细节,以便提供对本实施例的透彻理解。然而,对于本领域的技术人员来说将显而易见的是,可以在没有这些具体细节的情
况下实践本实施例。在其它实例中,公知的电路、结构和技术没有被详细地示出,而是在框图中示出,以便避免不必要地模糊对此描述的理解。
[0019]在说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定的特征、结构或特性被包括在至少一个实施例中。位于本说明书中的各个位置中的短语“在一个实施例中”不一定是指相同的实施例。
[0020]如上面所讨论的,为了使用唤醒词来发起设备,通常利用唤醒词检测(WWD)。大多数方法都采用无法被用户修改的预先选定的唤醒词(例如,“hello”),并且需要数以万计的后端训练发声。这些预先选定的唤醒词是离线训练的,并且针对所有说话人奏效,并且因此,是与说话人无关的。唤醒词的检测可以在设备上被本地执行,并且然后可以在云中由更复杂的算法验证。说话人识别是一项附加功能,其可以提供某种程度的安全性或定制化(例如,用户特定的播放列表)。然而,说话人识别是一项复杂的任务,其通常在云中执行,并且需要繁琐的注册阶段(阅读文本)。
[0021]许多个人设备(例如,耳机、可听设备、可穿戴设备、照相机等)现在都以话音接口为特征。这些设备通常由很少的或者甚至单个用户使用。由于它们是电池供电的,因此到云的连接性受到限制,以节省电力。因此,期望功能保持在本地。尽管如此,诸如唤醒词检测和说话人识别之类的特征是期望的,这是由于免提是对于许多这些产品的重要优势。用于实现这些目标的一种方法是启用用户个性化的唤醒词。通过让用户训练他们自己的(或者可替代地几个说话人共享训练相同的)唤醒词,它变得依赖于说话人,并且因此被优化以供特定说话人或少数说话人使用。由于这些设备是由少数或者甚至单个用户使用的,因此与说话人无关不一定是一项要求。另外,唤醒词的定制化固有地识别用户,并且用户可定制的唤醒词的保密性提供了安全性级别,而不需要显式和代价高昂的说话人识别。然而,用尽可能少的训练发声来实现这种系统是有挑战性的。
[0022]与传统方法相比,深度学习或深度神经网络(NN)由于其提高的准确性而已经成为一种有吸引力的选择。然而,这些系统是针对固定的或给定的唤醒词(例如,“hello”)进行离线训练的。它们需要数以千计的说话人重复数以万计的发声。一些解决方案确实提供了一种在以后适应于用户的话音的选项(注册阶段,或基于使用的适应),但是通常不展示出仅利用少量训练发声来训练任意唤醒词(用户可定制的)的能力。其它可用的解决方案(例如,孤立词训练和检测)遭受对“欺骗”短语的敏感性的问题,所述“欺骗”短语与唤醒词共享重要音素(或构建块声音)。的确,这样的系统易在类似发音词的情况下遭受相对高程度的错误检测。
[0023]本文所描述的实施例针对用于从发出的语音中检测唤醒词的设备、方法和系统。处理设备可以确定用于使用训练发声集合基于似然比来进行唤醒词识别的第一模型。发声集合可以由第一模型分析以确定第二模型,该第二模型包括训练发声集合中的每一个的训练状态序列,并且其中,每个训练状态序列指示对应训练发声的每个时间间隔的可能状态。可以基于第一模型和第二模型的连结来确定检测到的发声是否对应于唤醒词。更具体地,处理设备可以测量每个训练状态序列和检测到的发声的状态序列之间的距离,以生成距离集合,并且可以确定该距离集合之中的最小距离。处理设备可以至少部分地基于检测到的发声的似然比和距离集合之中的最小距离,来确定检测到的发声是否对应于唤醒词。
[0024]图1是根据各种实施例的系统100的框图,其示出了通过一个或多个网络114通信
地耦合到其它设备的音频处理设备102。音频处理设备102用于促进音频模式识别,并且可以基于经识别的音频模式来控制诸如设备103之类的设备或应用。音频处理设备102被示为接收来自音频模式源104的声波105和来自音频干扰源106的声波107。音频处理设备102本身可以发射音频干扰(未示出)(例如,通过扬声器)。
[0025]音频处理设备102还被示出通过通信链路与网络114交互。为了促进模式识别,音频处理设备102使用通过网络114从音频干扰源106接收的或内部生成的对应音频数据,来提供噪声消除以移除音频干扰中的一些或全部。在实施例中,可以使用独立分量分析(ICA)来实现噪声消除,其中,传入信号本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:确定被配置为基于训练发声集合来识别短语的第一模型;使用所述第一模型分析所述训练发声集合以确定第二模型,所述第二模型包括所述训练发声集合中的每一个的参数;以及基于所述第一模型和所述第二模型的连结来确定检测到的发声是否对应于所述短语。2.根据权利要求1所述的方法,其中,所述参数包括训练状态序列,使得所述第二模型包括针对所述训练发声集合中的每一个的训练状态序列,并且其中,每个训练状态序列指示对应训练发声的每个时间间隔的可能状态。3.根据权利要求2所述的方法,其中,确定所述检测到的发声是否对应于所述短语包括:确定所述检测到的发声的状态序列,所述状态序列指示所述检测到的发声的每个时间间隔的可能状态;以及确定每个训练状态序列和所述检测到的发声的所述状态序列之间的距离,以生成距离集合。4.根据权利要求3所述的方法,其中,确定所述检测到的发声是否对应于所述短语进一步包括:使用所述第一模型来确定所述检测到的发声的似然比;以及至少部分地基于所述检测到的发声的所述似然比和所述距离集合之中的最小距离,来确定所述检测到的发声是否对应于所述短语。5.根据权利要求4所述的方法,其中,确定所述距离集合之中的所述最小距离低于阈值指示所述检测到的发声对应于所述短语。6.根据权利要求1所述的方法,其中,所述参数包括随时间的似然比,使得所述第二模型包括对所述训练发声集合中的每一个的随时间的似然比的指示。7.根据权利要求6所述的方法,其中,确定所述检测到的发声是否对应于所述短语包括:确定所述检测到的发声的随时间的似然比;以及确定每个训练发声的随时间的似然比和所述检测到的发声的随时间的似然比之间的距离,以生成距离集合。8.根据权利要求7所述的方法,其中,确定所述检测到的发声是否对应于所述短语进一步包括:使用所述第一模型来确定所述检测到的发声的似然比;以及至少部分地基于所述检测到的发声的所述似然比和所述距离集合之中的最小距离,来确定所述检测到的发声是否对应于所述短语。9.一种系统,包括:存储器;以及处理设备,其可操作地耦合到所述存储器,所述处理设备被配置为:确定被配置为基于训练发声集合来识别短语的第一模型;使用所述第一模型分析所述训练发声集合以确定第二模型,所述第二模型包括针对所述训练发声集合中的每一个的训练状态序列,并且其中,每个训练状态序列指示对应训练
发声的每个时间间隔的可能状态;以及基于所述第一模型和所述第二模型的连结来确定检测到的发声是否对应于所述短语。10.根据权利要求9所述的系统,其中,为了确定所述检测到的发声是否对应于所述短语,所述处理设备被配置为:确定所述检测到的发声的状态序列,所述状态序列指示所述检测到的发声的每个时间间隔的可能状态;以及确定每个训练状态序列和所述检测到的发声的所述状态序列之间的距离,以生成距离集合。11.根据权利要求10所述的系统,其中,为了确定所述检测到的发声是否对应于所述短语,所述处理设备被进一步配置为:使用所述第一模型来确定所述检测到的发声的似然比;以及至少部分地基于所述检测到的发声的所述似然比和所述距离集合之中的最小距离,来确定所述检测到的发声是否对应于所述短语。12.根据权利要求11所述的系统,其中,所述处理设备被进一步配置为:将所述距离集合之中的确定距离与阈值进行比较;并且响应于确定所述距离集合之...

【专利技术属性】
技术研发人员:R
申请(专利权)人:赛普拉斯半导体公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1