语音用户接口制造技术

技术编号:20290439 阅读:34 留言:0更新日期:2019-02-10 20:41
接收信号表示用户的话音。对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果。对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同。该第二说话人识别过程与该第一说话人识别过程不同。将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。

【技术实现步骤摘要】
【国外来华专利技术】语音用户接口
本文所描述的实施方案涉及用于在语音用户接口(voiceuserinterface)中使用(例如,用于允许用户使用话音(speech)来控制设备的操作)的方法和系统。
技术介绍
提供语音用户接口以允许用户使用他们的语音与系统交互。此一个优点(例如,在诸如智能手机、平板计算机等的设备中)是它允许用户以免手持方式操作设备。在一个典型的系统中,用户通过说出触发短语来将语音用户接口从低功率待机模式唤醒。话音识别技术被用来检测已经说出了触发短语,并且分立地,说话人识别过程被用来确认触发短语是由设备的注册用户说出的。然后,语音用户接口可以向用户提供提示,以确认系统是活动的(active),然后用户可以说出命令,该命令可以由语音用户接口使用话音识别技术来识别。然后,语音用户接口可以按照该说出的命令行动。例如,如果该说出的命令要求公开可得的信息,则该说出的命令可以被识别,并且被用来生成对因特网搜索引擎的查询,以能够将该信息供应给用户。然而,在其他情况下,例如如果该说出的命令涉及个人信息,则由说话人识别过程提供的认证级别可能被认为不足以使语音用户接口按照该命令行动。在这样的情况下,可能要求用户提供附加形式的认证,例如通过经由设备的键盘输入PIN号码或密码,或通过提供附加的生物认证,诸如指纹扫描。这意味着用户不再能够以免手持方式操作设备。
技术实现思路
根据本文描述的实施方案,提供了减少或避免上文所提及的缺点中的一个或多个的方法和系统。根据本专利技术的第一方面,提供了一种处理表示用户的话音的接收信号的方法,该方法包括:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及,将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。根据本专利技术的另一方面,提供了一种用于处理表示用户的话音的接收信号、用于执行说话人识别的设备,其中该设备被配置为:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及,将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。根据本专利技术的另一方面,提供了一种用于处理表示用户的话音的接收信号、用于执行说话人识别的集成电路设备,其中该集成电路设备被配置为:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。根据本专利技术的另一方面,提供了一种处理表示用户的话音的接收信号的方法,该方法包括:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果;将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果;确定该用户是注册用户的指示似然性是否高于一个阈值;对该接收信号的该第二部分执行话音识别处理,以获得包含在该接收信号的该第二部分中的命令;以及如果该指示似然性高于该阈值,则按照所获得的命令行动。在另一方面,本专利技术提供了一种用于处理表示用户的话音的接收信号、用于执行说话人识别的设备,其中该设备被配置为:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。本专利技术还提供了一种用于处理表示用户的话音的接收信号、用于执行说话人识别的集成电路设备,其中该集成电路设备被配置为:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及,将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。本专利技术还提供了一种非暂时性计算机可读存储介质,具有存储在其上的计算机可执行的指令,当由处理器电路系统执行所述计算机可执行的指令时,所述计算机可执行的指令导致该处理器电路系统执行上文阐述的方法中的任何一种。附图说明为了更好地理解本专利技术,并且为了更清楚地示出如何有效实施本专利技术,现在将仅通过实施例的方式参考附图,在附图中:图1是电子设备的示意性视图;图2是电子设备的另一示意性图解;图3是例示一种方法的流程图;图4是例示该方法中的一个步骤的图表;图5是例示该方法中的一个步骤的示意性图解;图6是例示该方法中的一个步骤的图表;图7是例示该方法中的一个步骤的图表;图8是例示该方法中的另一步骤的图表;图9是例示第一种方法的示意性图解;图10是例示第二种方法的示意性图解。具体实施方式为清楚起见,在此将注意到,此描述涉及说话人识别和话音识别,它们意在具有不同的含义。说话人识别是指提供关于说话的人的身份的信息的技术。例如,说话人识别可以从一组先前注册的个体之中确定说话人的身份,或可以提供指示说话人是否是一特定个体的信息,用于识别或认证的目的。话音识别是指用于确定所说的内容和/或所说的内容的含义的技术,而不是识别说话的人。图1示出了根据本专利技术的一个方面的设备。该设备可以是任何合适类型的设备,诸如平板计算机、游戏控制台、远程控制设备、包括家用温度或照明控制系统的家用电器、玩具、机器(诸如,机器人)等,但是在此例示性实施例中,该设备是智能手机10。智能手机10可以通过合适的软件被用作用于控制任何其他另外的设备或系统的控制接口。智能手机10包括用于向用户显示信息的屏幕12、用于允许声音由麦克风检测的声音入口14、以及用于允许附件连接到该设备的插座(jacksocket)16或其他端口或容座(receptacle)。图2是示出了智能手机10的示意性图解。在此实施例中,智能手机10包括麦克风20,该麦克风可以例如靠近图1中示出的声音入口14定位。由麦克风20产生的电子信号被传递到信号处理块22,该信号处理块执行信号的初始信号处理,例如将从麦克风20所接收的模拟信号转换为数字信号。智能手机10还包括附件接口24,该附件接口可以例如靠近图1中所示出的插座16定位。插座16和接口24可以适合于允许头戴式送受话器(headset)附件与其连接,并且从这样的附件上的麦克风所接收的信号也被传递到信号处理块22,该信号处理块执行信号的初始信号处理。信号处理块22被连接到处理器26,该处理器基于存储器28中所存储的数据和程序指令来执行如本文所描述的方法。处理器本文档来自技高网...

【技术保护点】
1.一种处理表示用户的话音的接收信号的方法,该方法包括:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。

【技术特征摘要】
【国外来华专利技术】2016.06.06 US 62/346,0361.一种处理表示用户的话音的接收信号的方法,该方法包括:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。2.根据权利要求1所述的方法,包括将相应的加权值应用于该第一输出结果和第二输出结果并且将加权结果组合。3.根据权利要求2所述的方法,包括形成该第一输出结果和第二输出结果的加权和。4.根据权利要求2或3所述的方法,其中所述加权值是预定加权值。5.根据权利要求2或3所述的方法,其中所述加权值是可变加权值。6.根据权利要求5所述的方法,其中基于与相应的样本的质量相关的至少一个量度来确定所述加权值中的至少一个。7.根据权利要求6所述的方法,其中该加权值被确定为与该相应的样本的质量相关的量度的分段常数函数。8.根据权利要求6所述的方法,其中该加权值被确定为与该相应的样本的质量相关的量度的连续函数。9.根据权利要求1所述的方法,包括将该第一输出结果和第二输出结果作为输入应用于神经网络,以及获得组合输出结果作为该神经网络的输出。10.根据权利要求9所述的方法,还包括将与相应的样本的质量相关的至少一个量度作为输入应用于该神经网络。11.根据权利要求9或10所述的方法,其中在一个先验的开发阶段中使该神经网络适配。12.根据权利要求1所述的方法,包括基于与相应的样本的质量相关的至少一个量度来将该第一输出结果和第二输出结果组合。13.根据权利要求6、10或12中的任一项所述的方法,其中与该相应的样本的质量相关的至少一个量度包括与该接收信号的相应的部分的属性相关的量度。14.根据权利要求6、10或12中的任一项所述的方法,其中与该相应的样本的质量相关的至少一个量度包括与由该接收信号的相应的部分所表示的该话音的属性相关的量度。15.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括由该接收信号的相应的部分所表示的话音的量的量度。16.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分与相应的说话人识别过程的背景模型的拟合程度的量度。17.根据权利要求13所述的方法,其中与该相应的样本的质量相关的至少一个量度包括与该接收信号的相应的部分的饱和程度相关的量度。18.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的信噪比的量度。19.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的信号干扰比的量度。20.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的直接反射比的量度。21.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括接收该接收信号的相应的部分的方向的量度。22.根据权利要求14所述的方法,其中与该相应的样本的质量相关的至少一个量度包括接收该接收信号的相应的部分的路程的量度。23.根据权利要求1-22中的任一项所述的方法,其中该第一说话人识别过程和第二说话人识别过程使用该用户的话音的不同模型。24.根据权利要求1-23中的任一项所述的方法,其中该第一说话人识别过程和第二说话人识别过程使用不同的背景模型。25.根据权利要求23和24中的一项所述的方法,其中该用户的话音的模型或背景模型中的至少一个包括隐马尔可夫模型。26.根据权利要求23-25中的一项所述的方法,其中该用户的话音的模型或背景模型中的至少一个包括高斯混合模型。27.根据权利要求26所述的方法,其中该高斯混合模型使用因子分析。28.根据权利要求26或27所述的方法,其中该第一说话人识别过程和第二说话人识别过程使用具有不同数目的高斯函数的高斯混合模型。29.根据权利要求1-23中的任一项所述的方法,其中该第一说话人识别过程和第二说话人识别过程使用不同的验证方法。30.根据权利要求1-29中的任一项所述的方法,还包括对该接收信号的该第一部分和第二部分中的至少一个执行反欺骗过程。31.根据权利要求30所述的方法,其中该反欺骗过程包括基于从该接收信号的相应的部分所获得的特征向量来计算似然比。32.根据权利要求31所述的方法,其中该特征向量包括从频谱比、低频率比、特征向量平方马氏距离中所选择的一个或多个度量。33.根据权利要求30所述的方法,包括:对该接收信号的该第一部分和第二部分执行相应的反欺骗过程,以分别获得第一反欺骗得分和第二反欺骗得分。34.根据权利要求33所述的方法,包括:如果该第一反欺骗得分或第二反欺骗得分超过一个相应的阈值,则确定该用户并非是注册用户。35.根据权利要求33所述的方法,包括:如果该第一反欺骗得分和第二反欺骗得分的函数都超过一个相应的阈值,则确定该用户并非是注册用户。36.根据权利要求30-35中的任一项且还根据权利要求6、10或12中的任一项所述的方法,其中与该相应的样本的质量相关的量度包括从该接收信号的相应的部分所获得的相应的反欺骗得分。37.根据权利要求33-35中的一项所述的方法,包括:将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合,以获得指示该用户是注册用户的似然性的组合输出结果。38.根据权利要求37所述的方法,包括在分类器中将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合。39.根据权利要求37所述的方法,包括在神经网络中将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合。40.根据权利要求1-39中的任一项所述的方法,其中该接收信号的该第一部分包括一个触发短语,并且该接收信号的该第二部分包括一个命令。41.根据权利要求1-40中的任一项所述的方法,其中该接收信号的该第一部分对应于第一时间窗口,并且该接收信号的该第二部分对应于第二时间窗口,并且其中该第一时间窗口不与该第二时间窗口重叠。42.根据权利要求1-40中的任一项所述的方法,其中该接收信号的该第一部分对应于第一时间窗口,并且该接收信号的该第二部分对应于第二时间窗口,并且其中该第一时间窗口与该第二时间窗口至少部分地重叠。43.根据权利要求42所述的方法,其中该第二时间窗口包括该第一时间窗口。44.根据权利要求1-43中的任一项所述的方法,包括:对该接收信号的至少一个另外的部分执行至少一个另外的说话人识别过程,以获得至少一个相应的另外的输出结果;以及将该至少一个另外的输出结果与该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。45.根据权利要求1-44中的任一项所述的方法,还包括:至少对该接收信号的该第一部分执行话音识别。46.根据权利要求1-44中的任一项所述的方法,还包括基于该组合输出结果向该用户提供反馈。47.根据权利要求46所述的方法,其中该反馈包括听觉反馈、视觉反馈或触觉反馈。48.根据权利要求46所述的方法,包括基于该组合输出结果来允许或阻止该用户的进一步动作。49.一种用于处理表示用户的话音的接收信号、用于执行说话人识别的设备,其中该设备被配置为:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。50.根据权利要求49所述的设备,其中该设备包括移动电话、音频播放器、视频播放器、PDA、移动计算平台、游戏设备、远程控制器设备、玩具、机器或家庭自动化控制器。51.根据权利要求49或50所述的设备,还被配置为用于对该接收信号的至少一部分执行话音识别。52.根据权利要求49、50或51所述的设备,还被配置为用于将该接收信号的至少一部分转移到远程设备以进行话音识别。53.根据权利要求52所述的设备,还被配置为用于接收话音识别的结果。54.一种用于处理表示用户的话音的接收信号、用于执行说话人识别的集成电路设备,其中该集成电路设备被配置为:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果,该第二部分与该接收信号的该第一部分不同,其中该第二说话人识别过程与该第一说话人识别过程不同;以及将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果。55.根据权利要求54所述的集成电路设备,其中该第一说话人识别过程和第二说话人识别过程使用存储在所述设备中的至少一个用户模型或背景模型。56.根据权利要求54或55所述的集成电路设备,其中该第一说话人识别过程和第二说话人识别过程使用存储在分立的集成电路设备中的至少一个用户模型或背景模型。57.一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据权利要求1至48中的任一项所述的方法的指令。58.一种处理表示用户的话音的接收信号的方法,该方法包括:对该接收信号的第一部分执行第一说话人识别过程,以获得第一输出结果;对该接收信号的第二部分执行第二说话人识别过程,以获得第二输出结果;将该第一输出结果和第二输出结果组合,以获得指示该用户是注册用户的似然性的组合输出结果;确定该用户是注册用户的指示似然性是...

【专利技术属性】
技术研发人员:C·巴克罗阿维莱斯卡斯柯M·加西亚戈马尔D·马丁内斯冈萨雷斯
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1