语音用户接口制造技术

技术编号:20290440 阅读:32 留言:0更新日期:2019-02-10 20:41
一种认证说话人的方法,包括:接收言语信号;将该言语信号分成多个段;以及在每个段之后基于所述段和先前接收的段获得认证得分,其中该认证得分表示该言语信号来自特定的注册说话人的可能性;以及响应于认证请求,基于该认证得分输出认证结果。

【技术实现步骤摘要】
【国外来华专利技术】语音用户接口
本文所描述的实施方案涉及用于在语音用户接口(voiceuserinterface)中使用的方法和系统,例如用于允许用户使用言语(speech)来控制设备的操作。
技术介绍
提供语音用户接口以允许用户使用他们的语音与系统交互。这样的一个优点(例如在诸如智能手机、平板计算机等的设备中)是它允许用户以免手持方式操作设备。在一个典型的系统中,用户通过说出触发短语来将语音用户接口从低功率待机模式唤醒。言语识别技术被用来检测已经说出了触发短语,并且单独地,说话人识别过程被用来确认触发短语是由设备的注册用户说出的。然后,语音用户接口可以向用户提供提示,以确认系统是活动的(active),然后用户可以说出命令,该命令可以由语音用户接口使用言语识别技术识别。然后,语音用户接口可以对说出的命令起作用。例如,如果说出的命令要求公开可得的信息,则说出的命令可以被识别,并且被用来生成对因特网搜索引擎的查询,以能够将信息提供给用户。然而,在其他情况下,例如如果说出的命令涉及个人信息,则由说话人识别过程提供的认证级别可能被认为不足以使语音用户接口对该命令起作用。在这样的情况下,可能要求用户提供附加形式的认证,例如通过设备的小键盘输入PIN号码或密码,或通过提供附加的生物认证,诸如指纹扫描。这意味着用户不再能够以免手持方式操作设备。
技术实现思路
根据本文描述的实施方案,提供了减少或避免上文所提及的缺点中的一个或多个的方法和系统。根据本专利技术的第一方面,提供了一种认证说话人的方法,包括:接收言语信号;将该言语信号分成多个段;在每个段之后基于所述段和先前接收的段获得认证得分,其中该认证得分表示该言语信号来自特定的注册说话人的可能性;以及响应于认证请求,基于该认证得分输出认证结果。可以通过将该言语信号的特征与在登记该注册说话人期间生成的模型进行比较来获得该认证得分。该言语信号可以表示多个离散的言语片段。第一段可以表示触发短语。然后该方法可以包括响应于检测到该触发短语已经被说出执行获得认证得分的步骤和输出认证结果的步骤。该方法可以包括在该触发短语之后,将该言语信号划分成多个长度相等的段。例如,该方法可以包括在该触发短语之后,将该言语信号划分成多个覆盖相等长度的时间周期的段,或可以包括在该触发短语之后,将该言语信号划分成多个包括相等持续时间的净言语的段。该方法可以包括将该认证得分与第一阈值得分进行比较,并且如果该认证得分超过该第一阈值得分,则确定肯定的认证结果。可以响应于从一个单独的过程接收的信号来设定该第一阈值得分。该方法可以包括从该单独的过程接收信号,以及从多个可用的阈值得分选择该第一阈值得分。从该单独的过程接收的信号可以指示请求的安全级别。该单独的过程可以是一个言语识别过程。该方法可以包括将该认证得分与第二阈值得分进行比较,并且如果该认证得分在该第二阈值得分以下,则确定否定的认证结果。可以响应于从一个单独的过程接收的信号来设定该第二阈值得分。该方法可以包括从该单独的过程接收信号,并从多个可用的阈值得分选择该第二阈值得分。从该单独的过程接收的信号可以指示请求的安全级别。该单独的过程可以是一个言语识别过程。该方法可以包括响应于确定已经说出触发短语来启动该方法。该方法可以包括从一个言语识别过程接收认证请求。该认证请求可以请求当该认证得分超过阈值时输出该认证结果,或请求当该言语信号结束时输出该认证结果。在每个段之后基于所述段和先前接收的段获得认证得分的步骤包括:基于第一段获得第一认证得分;基于每个后续段获得相应的后续认证得分;以及通过合并该第一认证得分和所述或每个后续认证得分,基于所述段和先前接收的段获得该认证得分。合并该第一认证得分和所述或每个后续认证得分的步骤可以包括形成该第一认证得分与所述或每个后续认证得分的加权和。该方法可以包括通过应用取决于适用于相应的段的相应的信噪比的加权或通过应用取决于在相应的段中存在的言语的量的加权来形成该第一认证得分和所述或每个后续认证得分的加权和。该方法可以包括通过忽视一些或所有异常值得分来形成该第一认证得分和所述或每个后续认证得分的加权和。例如,该方法可以包括通过忽视低异常值得分同时保留高异常值得分来形成该第一认证得分和所述或每个后续认证得分的加权和。在每个段之后基于所述段和先前接收的段获得认证得分的步骤可以包括:基于该言语信号的第一段获得第一认证得分;以及在该言语信号的每个新段之后,将该言语信号的新段与该言语信号的所述或每个先前接收的段组合,以形成新的组合言语信号;以及基于所述新的组合言语信号获得认证得分。在每个段之后基于所述段和先前接收的段获得认证得分的步骤可以包括:从每个段提取特征;基于该言语信号的第一段的提取特征获得第一认证得分;以及在该言语信号的每个新段之后,将该言语信号的新段的提取特征与该言语信号的所述或每个先前接收的段的提取特征组合;以及基于所述组合提取特征获得认证得分。该方法可以包括:在确定肯定的认证结果之后:启动一个运行一预定时间周期的定时器;并且只要该定时器正在运行,就将该特定的注册说话人视为已认证。该方法可以包括:如果在该定时器运行时确定新的肯定的认证结果,则重新启动该定时器。根据本专利技术的一个方面,提供了一种用于处理表示用户言语的接收信号、用于执行说话人识别的设备,其中该设备被配置为:接收言语信号;将该言语信号分成多个段;在每个段之后基于所述段和先前接收的段获得认证得分,其中该认证得分表示该言语信号来自特定的注册说话人的可能性;以及响应于认证请求,基于该认证得分输出认证结果。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。该设备还可以被配置为对该接收信号的至少一部分执行言语识别。该设备还可以被配置为用于将该接收信号的至少一部分转移到一个远程设备以进行言语识别,在此情况下,该设备还可以被配置为接收言语识别的结果。根据本专利技术的一个方面,提供了一种用于处理表示用户言语的接收信号、用于执行说话人识别的集成电路设备,其中该集成电路设备被配置为:接收言语信号;将该言语信号分成多个段;在每个段之后基于所述段和先前接收的段获得认证得分,其中该认证得分表示该言语信号来自特定的注册说话人的可能性;以及响应于认证请求,基于该认证得分输出认证结果。可以使用存储在所述设备中的至少一个用户模型或背景模型来获得认证得分。本专利技术还提供了一种非暂时性计算机可读存储介质,具有存储在其上的计算机可执行的指令,当由处理器电路系统执行时,所述计算机可执行的指令导致该处理器电路系统执行上文阐述的方法中的任何一个。附图说明为了更好地理解本专利技术,并且为了更清楚地示出如何有效实施本专利技术,现在将仅通过实施例的方式参考附图,在附图中:图1是电子设备的示意性视图;图2是电子设备的另一个示意性图解;图3是例示一种方法的流程图;图4是例示处理系统的块图;以及图5是例示了该处理系统的操作的时间历史(timehistory)。具体实施方式为清楚起见,在此将注意到,此描述涉及说话人识别和言语识别,它们意在具有不同的含义。说话人识别是指提供关于说话的人的身份信息的技术。例如,说话人识别可以从一组先前注册的个体之中确定说话人的身份,或可以提供指示说话人是否本文档来自技高网...

【技术保护点】
1.一种认证说话人的方法,包括:接收言语信号;将该言语信号分成多个段;在每个段之后基于所述段和先前接收的段获得认证得分,其中该认证得分表示该言语信号来自特定的注册说话人的可能性;以及响应于认证请求,基于该认证得分输出认证结果。

【技术特征摘要】
【国外来华专利技术】2016.06.06 US 62/346,036;2016.11.07 US 62/418,453;1.一种认证说话人的方法,包括:接收言语信号;将该言语信号分成多个段;在每个段之后基于所述段和先前接收的段获得认证得分,其中该认证得分表示该言语信号来自特定的注册说话人的可能性;以及响应于认证请求,基于该认证得分输出认证结果。2.根据权利要求1所述的方法,其中通过将该言语信号的特征与在登记该注册说话人期间生成的模型进行比较来获得该认证得分。3.根据权利要求1或2所述的方法,其中该言语信号表示多个离散的言语片段。4.根据任一项前述权利要求所述的方法,其中第一段表示触发短语。5.根据权利要求4所述的方法,包括:响应于检测到已经说出该触发短语执行获得认证得分的步骤和输出认证结果的步骤。6.根据任一项前述权利要求所述的方法,包括:在该触发短语之后,将该言语信号划分成多个长度相等的段。7.根据权利要求6所述的方法,包括:在该触发短语之后,将该言语信号划分成多个覆盖相等长度的时间周期的段。8.根据权利要求6所述的方法,包括:在该触发短语之后,将该言语信号划分成多个包括相等持续时间的净言语的段。9.根据任一项前述权利要求所述的方法,包括:将该认证得分与第一阈值得分进行比较,并且如果该认证得分超过该第一阈值得分,则确定肯定的认证结果。10.根据权利要求9所述的方法,其中响应于从一个单独的过程接收的信号来设定该第一阈值得分。11.根据权利要求10所述的方法,包括:从该单独的过程接收信号,并从多个可用的阈值得分选择该第一阈值得分。12.根据权利要求10或11所述的方法,其中从该单独的过程接收的信号指示请求的安全级别。13.根据权利要求10、11或12所述的方法,其中该单独的过程是一个言语识别过程。14.根据任一项前述权利要求所述的方法,包括:将该认证得分与第二阈值得分进行比较,并且如果该认证得分在该第二阈值得分以下,则确定否定的认证结果。15.根据权利要求14所述的方法,其中响应于从一个单独的过程接收的信号来设定该第二阈值得分。16.根据权利要求15所述的方法,包括:从该单独的过程接收信号,并从多个可用的阈值得分选择该第二阈值得分。17.根据权利要求15或16所述的方法,其中从该单独的过程接收的信号指示请求的安全级别。18.根据权利要求15、16或17所述的方法,其中该单独的过程是一个言语识别过程。19.根据任一项前述权利要求所述的方法,包括:响应于确定已经说出触发短语来启动该方法。20.根据任一项前述权利要求所述的方法,包括:从一个言语识别过程接收认证请求。21.根据任一项前述权利要求所述的方法,其中该认证请求请求当该认证得分超过阈值时输出该认证结果。22.根据任一项前述权利要求所述的方法,其中该认证请求请求当该言语信号结束时输出该认证结果。23.根据任一项前述权利要求所述的方法,其中在每个段之后基于所述段和先前接收的段获得认证得分的步骤包括:基于第一段获得第一认证得分;基于每个后续段获得相应的后续认证得分;以及通过合并该第一认证得分和所述或每个后续认证得分,基于所述段和先前接收的段获得该认证得分。24.根据权利要求23所述的方法,其中合并该第一认证得分和所述或每个后续认证得分的步骤包括形成该第一认证得分与所述或每个后续认证得分...

【专利技术属性】
技术研发人员:C·巴克罗阿维莱斯卡斯柯D·马丁内斯冈萨雷斯R·罗伯茨
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1