【技术实现步骤摘要】
【国外来华专利技术】语音用户接口
本文所描述的实施方案涉及用于在语音用户接口(voiceuserinterface)中使用(例如,用于允许用户使用话音(speech)来控制设备的操作)的方法和系统。
技术介绍
提供语音用户接口以允许用户使用他们的语音与系统交互。此一个优点(例如,在诸如智能手机、平板计算机等的设备中)是它允许用户以免手持方式操作设备。在一个典型的系统中,用户通过说出触发短语来将语音用户接口从低功率待机模式唤醒。话音识别技术被用来检测已经说出了触发短语,并且分立地,说话人识别过程被用来确认触发短语是由设备的注册用户说出的。然后,语音用户接口可以向用户提供提示,以确认系统是活动的(active),然后用户可以说出命令,该命令可以由语音用户接口使用话音识别技术来识别。然后,语音用户接口可以按照该说出的命令行动。例如,如果该说出的命令要求公开可得的信息,则该说出的命令可以被识别,并且被用来生成对因特网搜索引擎的查询,以能够将该信息供应给用户。然而,在其他情况下,例如如果该说出的命令涉及个人信息,则由说话人识别过程提供的认证级别可能被认为不足以使语音用户接口按照该命令行动。在这样的情况下,可能要求用户提供附加形式的认证,例如通过经由设备的键盘输入PIN号码或密码,或通过提供附加的生物认证,诸如指纹扫描。这意味着用户不再能够以免手持方式操作设备。
技术实现思路
根据本文描述的实施方案,提供了减少或避免上文所提及的缺点中的一个或多个的方法和系统。根据本专利技术的第一方面,提供了一种处理表示用户的话音的接收信号的方法,该方法包括:对该接收信号的第一部分执行第一说话人识别过程,以获 ...
【技术保护点】
1.一种处理表示用户的话音的接收信号的方法,该方法包括:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。
【技术特征摘要】
【国外来华专利技术】2016.06.06 US 62/346,0361.一种处理表示用户的话音的接收信号的方法,该方法包括:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。2.根据权利要求1所述的方法,包括将相应的加权值应用于该第一输出结果和第二输出结果并且将加权结果组合。3.根据权利要求2所述的方法,包括形成该第一输出结果和第二输出结果的加权和。4.根据权利要求2或3所述的方法,其中所述加权值是预定加权值。5.根据权利要求2或3所述的方法,其中所述加权值是可变加权值。6.根据权利要求5所述的方法,其中基于与相应的样本的质量相关的至少一个量度来确定所述加权值中的至少一个。7.根据权利要求6所述的方法,其中该加权值被确定为与该相应的样本的质量相关的量度的分段常数函数。8.根据权利要求6所述的方法,其中该加权值被确定为与该相应的样本的质量相关的量度的连续函数。9.根据权利要求1所述的方法,包括将该第一输出结果和第二输出结果作为输入应用于神经网络,以及获得组合输出结果作为该神经网络的输出。10.根据权利要求9所述的方法,还包括将与相应的样本的质量相关的至少一个量度作为输入应用于该神经网络。11.根据权利要求9或10所述的方法,其中在一个先验的开发阶段中使该神经网络适配。12.根据权利要求1所述的方法,包括基于与相应的样本的质量相关的至少一个量度来将该第一输出结果和第二输出结果组合。13.根据权利要求6、10或12中的任一项所述的方法,其中与该相应的样本的质量相关的至少一个量度包括与该接收信号的相应的部分的属性相关的量度。14.根据权利要求6、10或12中的任一项所述的方法,其中与该相应的样本的质量相关的至少一个量度包括与由该接收信号的相应的部分所表示的该话音的属性相关的量度。15.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括由该接收信号的相应的部分所表示的话音的量的量度。16.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分与相应的说话人识别过程的背景模型的拟合程度的量度。17.根据权利要求13所述的方法,其中与该相应的样本的质量相关的至少一个量度包括与该接收信号的相应的部分的饱和程度相关的量度。18.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的信噪比的量度。19.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的信号干扰比的量度。20.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的直接反射比的量度。21.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括接收该接收信号的相应的部分的方向的量度。22.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括接收该接收信号的相应的部分的路程的量度。23.根据权利要求1-22中的任一项所述的方法,其中该第一说话人识别过程和第二说话人识别过程使用该用户的话音的不同模型。24.根据权利要求1-23中的任一项所述的方法,其中该第一说话人识别过程和第二说话人识别过程使用不同的背景模型。25.根据权利要求23和24中的一项所述的方法,其中该用户的话音的模型或背景模型中的至少一个包括隐马尔可夫模型。26.根据权利要求23-25中的一项所述的方法,其中该用户的话音的模型或背景模型中的至少一个包括高斯混合模型。27.根据权利要求26所述的方法,其中该高斯混合模型使用因子分析。28.根据权利要求26或27所述的方法,其中该第一说话人识别过程和第二说话人识别过程使用具有不同数目的高斯函数的高斯混合模型。29.根据权利要求1-23中的任一项所述的方法,其中该第一说话人识别过程和第二说话人识别过程使用不同的验证方法。30.根据权利要求1-29中的任一项所述的方法,还包括对该接收信号的该第一部分和第二部分中的至少一个执行反欺骗过程。31.根据权利要求30所述的方法,其中该反欺骗过程包括基于从该接收信号的相应的部分所获得的特征向量来计算似然比。32.根据权利要求31所述的方法,其中该特征向量包括从频谱比、低频率比、特征向量平方马氏距离中所选择的一个或多个度量。33.根据权利要求30所述的方法,包括:对该接收信号的该第一部分和第二部分执行相应的反欺骗过程,以分别获得第一反欺骗得分和第二反欺骗得分。34.根据权利要求33所述的方法,包括:如果该第一反欺骗得分或第二反欺骗得分超过一个相应的阈值,则确定该用户并非是注册用户。35.根据权利要求33所述的方法,包括:如果该第一反欺骗得分和第二反欺骗得分的函数都超过一个相应的阈值,则确定该用户并非是注册用户。36.根据权利要求30-35中的任一项且还根据权利要求6、10或12中的任一项所述的方法,其中与该相应的样本的质量相关的量度包括从该接收信号的相应的部分所获得的相应的反欺骗得分。37.根据权利要求33-35中的一项所述的方法,包括:将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合,以获得指示该用户是注册用户的似然性的组合输出结果。38.根据权利要求37所述的方法,包括在分类器中将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合。39.根据权利要求37所述的方法,包括在神经网络中将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合。40.根据权利要求1-39中的任一项所述的方法,其中该接收信号的该第一部分包括一个触发短语,并且该接收信号的该第二部分包括一个命令。41.根据权利要求1-40中的任一项所述的方法,其中该接收信号的该第一部分对应于第一时间窗口,并且该接收信号的该第二部分对应于第二时间窗口,并且其中该第一时间窗口不与该第二时间窗口重叠。42.根据权利要求1-40中的任一项所述的方法,其中该接收信号的该第一部分对应于第一时间窗口,并且该接收信号的该第二部分对应于第二时间窗口,并且其中该第一时间窗口与该第二时间窗口至少部分地重叠。43.根据权利要求42所述的方法,其中该第二时间窗口包括该第一时间窗口。44.根据权利要求1-43中的任一项所述的方法,包括:对该接收信号的至少一个另外的部分执行至少一个另外的说话人识别过程,以获得至少一个相应的另外的输出结果;以及将该至少一个另外的输出结果与该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。45.根据权利要求1-44中的任一项所述的方法,还包括:至少对该接收信号的该第一部分执行话音识别。46.根据权利要求1-44中的任一项所述的方法,还包括基于该组合输出结果向该用户提供反馈。47.根据权利要求46所述的方法,其中该反馈包括听觉反馈、视觉反馈或触觉反馈。48.根据权利要求46所述的方法,包括基于该组合输出结果来允许或阻止该用户的进一步动作。49.一种用于处理表示用户的话音的接收信号、用于执行说话人识别的设备,其中该设备被配置为:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。50.根据权利要求49所述的设备,其中该设备包括移动电话、音频播放器、视频播放器、PDA、移动计算平台、游戏设备、远程控制器设备、玩具、机器或家庭自动化控制器。51.根据权利要求49或50所述的设备,还被配置为用于对该接收信号的至少一部分执行话音识别。52.根据权利要求49、50或51所述的设备,还被配置为用于将该接收信号的至少一部分转移到远程设备以进行话音识别。53.根据权利要求52所述的设备,还被配置为用于接收话音识别的结果。54.一种用于处理表示用户的话音的接收信号、用于执行说话人识别的集成电路设备,其中该集成电路设备被配置为:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。55.根据权利要求54所述的集成电路设备,其中该第一说话人识别过程和第二说话人识别过程使用存储在所述设备中的至少一个用户模型或背景模型。56.根据权利要求54或55所述的集成电路设备,其中该第一说话人识别过程和第二说话人识别过程使用存储在分立的集成电路设备中的至少一个用户模型或背景模型。57.一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据权利要求1至48中的任一项所述的方法的指令。58.一种处理表示用户的话音的接收信号的方法,该方法包括:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果;将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果;确定该用户是注册用户的指示似然性是...
【专利技术属性】
技术研发人员:C·巴克罗阿维莱斯卡斯柯,M·加西亚戈马尔,D·马丁内斯冈萨雷斯,
申请(专利权)人:思睿逻辑国际半导体有限公司,
类型:发明
国别省市:英国,GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。