具有关键词适配的可定制关键词定位系统技术方案

技术编号:33702337 阅读:14 留言:0更新日期:2022-06-06 08:16
用户(202)可以指定针对数字助理(12)的唤醒词以触发数字助理对该唤醒词响应,其中该用户提供(204)该唤醒词的一个或多个初始发音。该唤醒词可以是唯一的,或者至少不是由所述数字助理的装置制造商或开发商事先确定的。然后可以用将来可能提供的唤醒词的其他潜在发音来扩充(214)该关键词的一个或多个初始发音,并且可以对那些其他潜在发音向下修剪(214)到阈值数量的其他潜在发音。然后可以使用该唤醒词的一个或多个初始发音的一个或多个记录来训练(218)音素识别器模型,以更好地识别所述用户或另一个人使用所述初始发音或其他潜在发音说出的所述唤醒词的未来实例。发音说出的所述唤醒词的未来实例。发音说出的所述唤醒词的未来实例。

【技术实现步骤摘要】
【国外来华专利技术】具有关键词适配的可定制关键词定位系统


[0001]本申请总体上涉及技术上创新的非常规解决方案,这些解决方案必须源于计算机技术并产生具体的技术改进。特别地,本申请涉及使用神经网络和其他技术来识别唤醒词或其他关键词以触发数字助理响应,其中关键词不是预定的。

技术介绍

[0002]唤醒词检测通常用于触发在装置处执行的数字助理以开始收听由人类口头提供且助理可能响应的任务或信息请求。助理可以包含在机器人、智能手机、智能扬声器等中,并且可以是例如亚马逊的或苹果的
[0003]然而,当前技术的局限性在于,典型地单一、预定义和通用的唤醒词(通常是给予助理的名字本身)缺乏个性化。该限制旨在使唤醒词的“关键词定位”在尝试检测实时语音中的唤醒词时尽可能准确,因为当前用于关键词定位的方法通常需要训练用于对从说出预定唤醒词的众多说话者的数千个训练样本进行关键词定位的神经网络,以将助理识别唤醒词的准确性提高到足够的水平。当前对于前述计算机相关技术问题没有妥善的解决方案。

技术实现思路

[0004]本申请认识到,在个性化机器人、通信对话代理和其他类型的数字助理呈指数增长的世界中,需要一种技术解决方案,其能够帮助用户为助理分配他们自己的唤醒词名字(或更一般地,关键词),并使用该名字来激活助理并与之对话。本申请还认识到不同的用户可能在不同的时间与相同的装置/数字助理互动,并且可能希望各自给相同的助理不同的唤醒词或名字。
[0005]基于前述,本申请进一步认识到可定制唤醒词/关键词定位可以在众多应用程序中实现和使用,而无需在说出关键词的不同人的成千上万个训练样本上训练神经网络。
[0006]因此,在与本专利技术原理一致的非限制性示例中,“可定制关键词定位”可以被认为是一种可训练的关键词定位方法,其具有通过在装置本地处无需服务器的帮助离线地注册特定的新关键词/唤醒词来添加新关键词/唤醒词的能力。助理然后可以开始再次无需服务器的帮助在连续实时和“离线”语音中检测新添加的关键词/唤醒词,以验证关键词已经被说出(但是在一些实施方案中服务器可以用于此类目的)。包含助理的系统/装置甚至可以在注册过程期间适用于说话者,以通过短期关键词适配的过程使系统更熟悉说话者的声音。这种关键词适配也可以在较短期和较长期使用说话者与助理的对话随时间的推移而执行,以改进系统检测说话者唤醒词的准确性。
[0007]更详细地,在示例实施方案中,可以检测人说出的音素,并且系统可以使用音素

关键词解码器来解码经由音素说出的关键词以检测关键词。为实现这一点,可以通过首先选择足够的数据集用于训练和评估模型并将其应用于关键词来开发音素识别器模型。例如,可以使用TIMIT语料库,因为其具有足够的带注释音素边界来训练高效的音素识别器模型,但是应理解可以使用多个其他语料库。根据本专利技术原理,可以使用基于循环神经网络的
方法来训练音素识别器模型,并且在一些示例中,具体地可以使用基于联结主义时序分类(CTC)的翘曲方法。
[0008]然后使用该音素识别器模型,可以在上述关键词适配之前发生发音扩充和修剪,以从音素序列中准确地解码可能的关键词。为了做到这一点,可以训练具有音素识别器模型的系统以从音素序列中近似地检测字素。在非限制性示例中,音素可以是语音系统的表示由用户发出的单个声音的一个或多个单元(例如,“Charlie”中的“ch”),并且字素可以是书写系统的表示单独音素的一个或多个单元。因此,例如,给定特定音素序列,可以导出最可能的一个或多个字素序列表征。然后可以确定每个字素序列的许多音素变体,其中使用sequitur工具借助于词汇表/词典(例如,大约80,000个)生成字素序列的前N个音素变体(例如,N=5),为关键词生成可能有意义的音素序列,从而模仿用于说出关键词的音素序列的可能变体,因为用户可能不会每次都说出完全相同的同一关键词。图14中示出了这种情况的示例,其中单个字素1400(C H A R L I E)被馈送到sequitur G2P工具1402中以呈现多个音素1404(CH AA R L IY、CH AA R L AY、SH AA R L IY等)。然后可以进行修剪以减少音素序列的可能变体数量,从而减少处理时间,同时仍然保持最准确的变体。
[0009]然后音素序列可以变成输入并且字素序列可以变成深度学习模型训练的输出,其中可以在适配期间使用序列到序列训练来训练可以建立音素识别器的模型。一旦该模型被训练,它就可以使用音素识别器模型生成的音素,并将其传递给序列到序列P2G模型,以便在用户实时说出关键词时对其进行后续解码。图15中示出了这一点的概述,其中语音1500被馈送到关键词解码器1504的音素识别器模型1502以最终解码由用户在注册关键词后说出的关键词。
[0010]此外,根据本专利技术原理,系统可以以两种模式检测关键词/唤醒词:孤立关键词模式,其中说出了关键词但没有周围语音伴随以帮助识别应该触发系统;以及在其他预注册的词周围说出关键词以帮助识别应该触发系统的模式。但是为了协助任一模式,应理解,系统可以在其可定制关键词定位系统(CKWS)架构中结合关键词适配技术。这可能涉及系统调查以尝试通过使用短期和长期说话者特征来改进关键词识别准确性。
[0011]因此,在一个方面,一种用于识别语音中的关键词的方法包括:检测语音中的第一音素;将第一音素转换为第一字素;将来自词典的第二字素添加到第一字素以呈现扩充字素集;将扩充字素集转换为第二音素集;修剪第二音素集以呈现输出音素;以及至少部分地基于输出音素识别关键词。所述方法可以使用适用于生成语音的人类的至少一个神经网络来执行,并且语音中的关键词可以由用户指示并且不可以在语音中被指示之前被预定。
[0012]在非限制性示例中,词典可以包括基本词和翻译词。每个基本词可以与“K”个音素映射相关,并且每个翻译词可以与“N”个音素映射相关。每个基本词也可以与“M”个翻译词相关联。“K”、“N”和“M”可以是整数,并且至少“K”可以大于1。
[0013]在一些实施方式中,所述方法可以包括指示用户按大于1的预定次数说出关键词,并且还向用户指示关键词应该包含至少三个音素。
[0014]同样在一些实现方式中,修剪第二音素集可以包括从第二音素集中去除重复的音素序列。修剪第二音素集还可以包括如果特定音素序列短于阈值序列长度,则从第二音素集中消除音素序列。更进一步地,修剪第二音素集可以包括如果第二音素集中的第一音素序列与由第一音素建立的第二音素序列不相似,则从第二音素集中消除音素序列。可以使
用基于Jaro Winkler归一化距离和基于Demerau Levenshtein归一化距离的融合距离度量来测量相似性,诸如等式其中α是加权参数,其中dl是Demerau Levenshtein归一化距离,并且其中jw是Jaro Winkler归一化距离。
[0015]此外,在一些示例中,修剪第二音素集可以包括基于正样本和负样本的样本匹配来进行修剪,其中来自第二音素集的音素序列如果仅与负本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于识别语音中的关键词的方法,其包括:检测所述语音中的第一音素;将所述第一音素转换为第一字素;将来自词典的第二字素添加到所述第一字素以呈现扩充字素集;将所述扩充字素集转换为第二音素集;修剪所述第二音素集以呈现输出音素;以及至少部分地基于所述输出音素识别所述关键词。2.如权利要求1所述的方法,其包括使用适用于生成所述语音的人类的至少一个神经网络来执行所述方法。3.如权利要求1所述的方法,其中所述词典包括:基本词,每个基本词与“K”个音素映射相关;翻译词,每个翻译词与“N”个音素映射相关;并且每个基本词与“M”个翻译词相关,其中“K”、“N”和“M”为整数且至少“K”大于1。4.如权利要求1所述的方法,其中所述语音中的所述关键词由用户指示,所述关键词不是在所述语音中被指示之前预定的。5.如权利要求1所述的方法,其包括:指示用户按大于1的预定次数说出所述关键词,并向所述用户指示所述关键词应该至少包含三个音素。6.如权利要求1所述的方法,其中修剪所述第二音素集包括从所述第二音素集中去除重复的音素序列。7.如权利要求1所述的方法,其中修剪所述第二音素集包括如果特定音素序列短于阈值序列长度,则从所述第二音素集中消除音素序列。8.如权利要求1所述的方法,其中修剪所述第二音素集包括如果所述第二音素集中的第一音素序列与由所述第一音素建立的第二音素序列不相似,则从所述第二音素集中消除音素序列。9.如权利要求8所述的方法,其中使用基于Jaro Winkler归一化距离和基于Demerau Levenshtein归一化距离的融合距离度量来测量相似性。10.如权利要求9所述的方法,其中所述融合距离度量是使用等式来确定的,其中α是加权参数,其中dl是Demerau Levenshtein归一化距离,并且其中jw是Jaro Winkler归一化距离。11.如权利要求1所述的方法,其中修剪所述第二音素集包括基于正样本和负样本的样本匹配来进行修剪,其中来自所述第二音素集的音素序列如果仅与负样本匹配则被消除。12.如权利要求11所述的方法,其中如果匹配样本的加权平均值大于阈值则不从所述第二音素集中消除来自所述第二音素集的与正样本和负样本匹配的音素序列。13.如权利要求1所述的方法,其中使用音素识别器模型执行所述检测,并且其中所述方法包括:在所述修剪之后,基于指示所述第一音素的一个或多个记录来训练所述音素识别器模型。14.如权利要求13所述的方法,其中所述输出音素为第一输出音素,其中所述音素识别
器模型为第一音素识别器模型,其中所述训练从所述第一音素识别器模型呈现第二音素识别器模型,并且其中所述方法包括:在所述训练之后,使用所述第二音素识别器模型来呈现第二输出音素;以及或者将所述第二输出音素添加到所述第一输出音素以尝试基于所述第一和第二输出音素两者来识别所述关键词,或者用所述第二输出音素替换所述第一输出音素以尝试基于所述第二输出音素...

【专利技术属性】
技术研发人员:L考希克Z葛
申请(专利权)人:索尼互动娱乐股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1