话音命令触发的语音增强制造技术

技术编号:13834546 阅读:45 留言:0更新日期:2016-10-14 19:15
存储代表语音的接收数据,且一个触发检测块检测代表一个触发短语的数据在该接收数据中的存在。作为响应,将代表该触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块,基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数。将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,以形成增强的存储数据,其中该存储数据的第二部分与该存储数据的第一部分重叠。第二触发短语检测块检测代表该触发短语的数据在增强的存储数据中的存在。作为响应,从该语音增强块输出增强的语音数据以用于进一步处理,例如语音识别。借助于第一触发短语检测块来执行检测代表该触发短语的数据在该接收数据中的存在;且借助于第二触发短语检测块来执行检测代表该触发短语的数据在增强的存储数据中的存在,且该第二触发短语检测块用与该第一触发短语检测块不同的(通常更严格的)检测标准操作。

【技术实现步骤摘要】
【国外来华专利技术】本专利技术涉及处理接收到的语音数据的方法,以及用于实施这样的方法的系统。已知使用经由因特网访问的远程定位的语音识别算法为移动设备提供自动语音识别(ASR)。此语音识别可以被用来在移动设备上或经由移动设备识别口语命令,例如用于浏览因特网和用于控制特定功能。为了保持电池寿命,这些移动设备以功率节省待机模式度过它们的大部分时间。触发短语可以被用来唤醒设备的主处理器,使得可以在主处理器内和/或通过远程分析服务执行说话人验证(即,说话的人的身份的验证)和/或任何其他语音分析服务。为了提高ASR服务中的识别率,众所周知,使用多种在传输之前增强音频(即,语音)的信号处理技术,例如,声学回声消除、噪声降低以及多麦克风波束形成。许多这些增强技术是自适配的,换言之,它们动态地修改它们的参数以适配提供麦克风信号的声学环境。当声学环境改变时,花费一个有限的时间段以使这些参数迭代地适配于使由声学环境产生的任何不期望的特征降低到无关紧要的水平的点。这被称为适配时间,并且对许多自适配音频信号处理算法,通常具有一秒的数量级。声学回声消除(AEC)使用如上文所描述的自适配过程,以通过使用从扬声器的输出导出的参考信号来消除可以被语音麦克风拾取的本地扬声器成分,且使用一个自适配过程以估计从扬声器到麦克风的声学传递函数。此适配可以在来自扬声器的任何信号输出上发生。因此,它不依赖于用户通过麦克风输入的信号。ASR在扬声器操作期间的一些典型用途是音乐回放的话音控制和在免提电话期间的话音控制。对于这些情况,AEC可以在扬声器输出开始的一秒内收敛于环境,且因此,在大多数情况下,在用户开始发出口语命令之前该适配已经达到需要的水平。相反,自适配噪声降低和多麦克风波束形成是依赖于产生的包含用户的语音的信号的自适配过程。这些自适配过程直到用户的语音存在于
来自麦克风的信号中才能够开始使它们的参数适配,并且一旦用户的语音存在,它们花费一个时间段来适配于需要的水平。可能需要这些自适配过程以在声音触发的从待机唤醒之后立即增强语音以用于在ASR中使用。使这些语音识别算法在低功率待机状态下运行也未必可行,因为它们的计算复杂性导致合成设备功率消耗相当大。这的最终结果是不可以有效地增强口语命令的开始,这可能导致ASR服务的结果较差。根据本专利技术的第一方面,提供了一种处理代表语音的接收数据的方法,包括:存储该接收数据;检测代表一个触发短语的数据在该接收数据中的存在;响应于所述检测,将代表该触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块;基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,以形成增强的存储数据,其中该存储数据的第二部分与该存储数据的第一部分重叠;检测代表该触发短语的数据在该增强的存储数据中的存在;以及响应于检测到代表该触发短语的数据在该增强的存储数据中的存在,从该语音增强块输出增强的语音数据以用于进一步处理;其中借助于第一触发短语检测块来执行检测代表该触发短语的数据在该接收数据中的存在;且其中借助于第二触发短语检测块来执行检测代表该触发短语的数据在该增强的存储数据中的存在,且其中该第二触发短语检测块用与该第一触发短语检测块不同的检测标准进行操作。根据本专利技术的第三方面,提供了一种语音处理器,包括:一个输入,用于接收代表语音的数据;以及一个自适配语音增强块,其中该语音处理器被配置为执行根据第一方面的方法。根据本专利技术的第三方面,提供了一种移动设备,包括根据第二方面
的语音处理器。根据本专利技术的第四方面,提供了一种计算机程序产品,包括计算机可读代码,用于导致一个处理设备执行根据第一方面的方法。根据本专利技术的第五方面,提供了一种处理代表语音的接收数据的方法,包括:在检测到代表一个触发短语的该接收数据的一段时:基于该接收数据的所述段的至少一部分来训练一个自适配语音增强块,以导出用于该自适配语音增强块的参数;将接收数据的所述段传递通过使用所述导出的参数的所述自适配语音增强块,以生成一个增强的数据段;以及试图在增强的数据段中检测所述触发短语。根据本专利技术的第六方面,提供了一种处理代表语音的接收数据的方法,包括:在该接收数据中检测环境噪声水平;如果该环境噪声水平在第一阈值以上且在高于该第一阈值的第二阈值以下,则对该接收数据执行语音增强过程,且对从该语音增强过程输出的数据执行语音识别过程;如果该环境噪声水平在该第一阈值以下,则对未通过所述语音增强过程处理的该接收数据执行语音识别过程;以及如果该环境噪声水平在该第二阈值以上,则省略对该接收数据执行语音识别过程。根据本专利技术的第七方面,提供了一种语音处理器,包括:一个输入,用于接收代表语音的数据;以及一个自适配语音增强块,其中该语音处理器被配置为执行根据第六方面的方法。根据本专利技术的第八方面,提供了一种移动设备,包括根据第七方面的语音处理器。根据本专利技术的第九方面,提供了一种计算机程序产品,包括计算机可读代码,用于导致一个处理设备执行根据第六方面的方法。根据本专利技术的第十方面,提供了一种处理代表语音的接收数据的方法,包括:存储该接收数据;检测代表第一触发短语的数据在该接收数据中的存在;响应于所述检测,将代表该第一触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块;基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,其中该存储数据的第二部分与该存储数据的第一部分重叠;以及从该语音增强块输出增强的语音数据。根据本专利技术的第十一方面,提供了一种语音处理器,包括:一个输入,用于接收代表语音的数据;以及一个自适配语音增强块,其中该语音处理器被配置为执行根据第十方面的方法。根据本专利技术的第十二方面,提供了一种移动设备,包括根据第十一方面的语音处理器。根据本专利技术的第十三方面,提供了一种计算机程序产品,包括计算机可读代码,用于导致一个处理设备执行根据第十方面的方法。这提供的优点是,随着接收的语音数据被存储,该数据的一部分可以被用来训练该语音增强算法,使得适配参数有时间收敛。这些适配参数然后可以被应用到该存储数据,使得已经被有效地增强的数据可以被输出到一个语音处理器。为了更好地理解本专利技术,以及示出如何实施本专利技术,现在将以实施例的方式参考附图,在附图中:图1示出了根据本专利技术的一个方面的移动设备;图2示出了图1的移动设备中的数字信号处理器的一个实施方案的更详细的视图;图3示出了图2中示出的系统的操作的一个实施例;图4是示出了图2中示出的系统的操作的一个实施例的流程图;图5示出了数字信号处理器的一个替代实施方案;图6示出了图5中示出的系统的操作的一个实施例;图7是示出了图5中示出的系统的操作的一个实施例的流程图;图8示出了数字信号处理器的又一个替代实施方案;图9示出了数字信号处理器的一个替代实施方案;图10示出了图9中示出的系统的操作的一个实施例;图11是示出了图9中示出的系统的操作的一个实施例的流程图;以及图12示出了数字信号处理器的又一个替代实施方案。具体实施方式图1示出了系统10,包括具有到服务器14的连接本文档来自技高网
...

【技术保护点】
一种处理代表语音的接收数据的方法,包括:存储该接收数据;检测代表一个触发短语的数据在该接收数据中的存在;响应于所述检测,将代表该触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块;基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,以形成增强的存储数据,其中该存储数据的第二部分与该存储数据的第一部分重叠;检测代表该触发短语的数据在该增强的存储数据中的存在;以及响应于检测到代表该触发短语的数据在该增强的存储数据中的存在,从该语音增强块输出增强的语音数据以用于进一步处理;其中借助于第一触发短语检测块来执行检测代表该触发短语的数据在该接收数据中的存在;且其中借助于第二触发短语检测块来执行检测代表该触发短语的数据在该增强的存储数据中的存在,且其中该第二触发短语检测块用与该第一触发短语检测块不同的检测标准进行操作。

【技术特征摘要】
【国外来华专利技术】2013.12.18 GB 1322349.01.一种处理代表语音的接收数据的方法,包括:存储该接收数据;检测代表一个触发短语的数据在该接收数据中的存在;响应于所述检测,将代表该触发短语的至少一部分的存储数据的第一部分供应到一个自适配语音增强块;基于该存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;将该存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,以形成增强的存储数据,其中该存储数据的第二部分与该存储数据的第一部分重叠;检测代表该触发短语的数据在该增强的存储数据中的存在;以及响应于检测到代表该触发短语的数据在该增强的存储数据中的存在,从该语音增强块输出增强的语音数据以用于进一步处理;其中借助于第一触发短语检测块来执行检测代表该触发短语的数据在该接收数据中的存在;且其中借助于第二触发短语检测块来执行检测代表该触发短语的数据在该增强的存储数据中的存在,且其中该第二触发短语检测块用与该第一触发短语检测块不同的检测标准进行操作。2.根据权利要求1所述的方法,包括:响应于未能检测到代表该触发短语的数据在该增强的存储数据中的存在,重置该第一触发短语检测块。3.根据权利要去1或2所述的方法,其中该第二触发短语检测块用比该第一触发短语检测块更严格的检测标准进行操作。4.根据任一项前述权利要求所述的方法,包括:接收并且存储来自多个麦克风的数据;将从所述麦克风的一个子集接收到的数据供应到该第一触发短语检测块,以用于检测代表该触发短语的数据在接收自所述麦克风的所述子集的数据中的存在;响应于所述检测,将代表该触发短语的至少一部分的、来自所述多个麦克风的存储数据的第一部分供应到该自适配语音增强块;基于来自所述多个麦克风的存储数据的第一部分来训练该语音增强块,以导出用于该语音增强块的适配参数;以及将来自所述多个麦克风的存储数据的第二部分供应到用所述适配参数进行操作的该自适配语音增强块,以形成所述增强的存储数据。5.根据权利要求4所述的方法,其中该语音增强块是一个波束形成器。6.根据任一项前述权利要求所述的方法,其中该存储数据的第一部分是从第一定义的开始点起存储的数据。7.根据权利要求6所述的方法,其中该存储数据的第二部分是从第二定义的开始点起存储的数据,且该第二定义的开始点晚于该第一定义的开始点。8.根据任一项前述权利要求所述的方法,包括将该存储数据的第二部分供应到该语音增强块,并且以比实时更高的速率从该语音增强块输出增强的语音数据。9.根据权利要求8所述的方法,包括将该存储数据的第二部分供应到该语音增强块,并且以比实时更高的速率从该语音增强块输出增强的语音数据,直到被供应的数据与被存储的数据大体上时间对齐为止。10.一种语音处理器,包括:一个输入,用于接收代表语音的数据;以及一个语音处理块,其中该语音处理器被配置为执行根据权利要求1到10中的任一项所述的方法。11.一种语音处理器,包括:一个输入,用于接收代表语音的数据;以及一个输出,用于连接到一个语音处理块,其中该语音处理器被配置为执行根据权利要求1到10中的任一项所述的方法。12.一种移动设备,包括根据权利要求10或11所述的语音处理器。13.一种计算机程序产品,包括计算机可读代码,用于导致一个处理设备执行根据权利要求1到10中的任一项所述的方法。14.一种处理代表语音的接收数据的方法,包括:在检测到代表一个触发短语的该接收数据的一段时:基于该接收数据的所述段的至少一部分来训练一个自适配语音增强块,以导出用于该自适配语音增强块的参数;将接收数据的所述段传递通过使用所述导出的参数的所述自适配语音增强块,以生成一个增强的数据段;以及试图在增强的数据段中检测所述触发短语。15.根据权利要求14所述的方法,包括:如果试图在增强的数据段中检测所述触发短语未成功,则重置一个用于检测代表一个触发短语的该接收数据的一段的检测器。16.根据权利要求14或15所述的方法,包括:如果试图在增强的数据段中检测所述触发短语成功,则将进一步接收的数据传递通过该自适配增强块,以用于进一步下游信号处理。17.根据权利要求14、15或16所述的方法,包括试图使用与在检测该接收数据的该段是否代表一个触发短语时使用的检测标准不同的检测标准来在增强的数据段中检测所述触发短语。18.一种处理代表语音的接收数据的方法,包括:在该接收数据中检测环境噪声水平;如果该环境噪声水平在第一阈值以上且在高于该第一阈值的第二阈值以下,则对该接收数据执行语音增强过程,且对从该语音增强过程输出的数据执行语音识别过...

【专利技术属性】
技术研发人员:R·J·哈特菲尔德M·佩奇
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1