当前位置: 首页 > 专利查询>谷歌公司专利>正文

用于语音识别的语音模型和噪声模型制造技术

技术编号:8629653 阅读:143 留言:0更新日期:2013-04-26 18:38
接收由设备基于来自用户的音频输入生成的音频信号。该音频信号可以至少包括对应于由设备记录的一个或多个用户话语的用户音频部分。可以访问与用户相关联的用户语音模型,并且可以进行音频信号中的背景音频在定义阈值以下的确定。响应于确定音频信号中的背景音频在定义阈值以下,可以基于音频信号适配访问的用户语音模型以生成对用户的语音特性建模的适配用户语音模型。可以使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与所述接收的音频信号相比具有减少的背景音频的滤波音频信号。

【技术实现步骤摘要】
【国外来华专利技术】
本说明书涉及语音识别。
技术介绍
语音识别可以用于话音搜索查询。通常,搜索查询包括当用户请求搜索引擎执行搜索时用户向搜索引擎提交的一个或者多个查询项。在其他方式中,用户可以通过在键盘上键入或者在话音查询的情况下通过向例如移动设备的麦克风中口述查询项来录入搜索查询的查询项。当通过例如移动设备提交话音查询时,移动设备的麦克风除了用户的口述话语之外还可能记录环境噪声或者声音,在其他方面被称作“环境音频”或“背景音频”。例如,环境音频可以包括位于用户周围的其他人的背景聊天或者谈话或者由自然(例如,狗吠)或者人造物体(例如,办公室、机场或者公路噪声或者建筑活动)生成的噪声。环境音频可能部分地遮蔽用户的话音,从而使得自动化语音识别(“ASR”)引擎难以准确识别口述话语。
技术实现思路
在一个方面,一种系统包括一个或多个处理设备以及存储有指令的一个或多个存储设备,当指令被一个或多个处理设备执行时,使得一个或多个处理设备接收由设备基于来自用户的音频输入生成的音频信号,音频信号至少包括对应于由设备记录的一个或多个用户话语的用户音频部分;访问与用户相关联的用户语音模型;确定音频信号中的背景音频在定义阈值以下;响应于确定音频信号中的背景音频在定义的阈值以下,基于音频信号适配访问的用户语音模型以生成对用户语音特性建模的适配用户语音模型;以及使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与接收的音频信号相比具有减少的背景音频的滤波音频信号。实现方式可以包括一个或多个以下特征。例如,音频信号可以包括仅对应于围绕用户的背景音频的环境音频部分以确定音频信号中的背景音频在定义阈值之下,指令可以包括如下指令,当被执行时,使得一个或多个处理设备确定环境音频部分中的能量的量;以及确定环境音频部分中能量的量在阈值能量之下。为了确定音频信号中的背景音频在定义阈值之下,指令包括如下指令,当被执行时,使得所述一个或多个处理设备确定音频信号的信噪比;以及确定该信噪比在阈值信噪比之下。音频信号可以包括仅对应于围绕用户的背景音频的环境音频部分以确定音频信号的信噪比,指令包括如下指令,当被执行时,使得一个或多个处理设备确定音频信号的用户音频部分中的能量的量;确定音频信号的环境音频部分中的能量的量;以及通过确定用户音频部分与环境音频部分中的能量的量之间的比率来确定信噪比。访问的用户语音模型可以包括尚未适配为对用户的语音特性建模的替代用户语音模型。指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备选择替代用户语音模型;以及将替代语音模型与用户相关联。为了选择替代用户语音模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备确定用户的性别;以及基于用户的性别从多个替代用户语音模型之中选择替代用户语音模型。为了选择替代用户语音模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备确定在记录一个或多个话语时用户的位置;以及基于在记录一个或多个话语时用户的位置从多个替代用户语音模型之中选择替代用户语音模型。为了选择替代用户语音模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备确定用户的语言或口音;以及基于语言或口音从多个替代用户语音模型之中选择替代用户语音模型。为了选择替代用户语音模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备接收至少包括对应于由设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号;确定多个替代用户语音模型与基于所述最初音频信号确定的用户的期望用户语音模型之间的相似性度量;以及基于相似性度量从多个替代用户语音模型之中选择替代用户语音模型。指令可以包括如下指令,当被执行时,使得一个或多个处理设备访问与用户相关联的噪声模型;以及其中为了执行噪声补偿,指令可以进一步包括如下指令,其使得一个或多个处理设备使用适配用户语音模型和访问噪声模型对接收的音频信号执行噪声补偿。为了执行噪声补偿,指令可以进一步包括如下指令,其使得一个或多个处理设备基于接收的音频信号适配访问噪声模型以生成对围绕用户的背景音频的特性建模的适配噪声模型;以及使用适配用户语音模型和适配噪声模型来对接收的音频信号执行噪声补偿。指令可以包括如下指令,当被执行时,使得一个或多个处理设备接收至少包括对应于由设备记录的一个或多个用户话语的第二用户音频部分的第二音频信号;确定第二音频信号中的背景音频在定义阈值之上;以及响应于确定第二音频信号中的背景音频在定义阈值之上,基于第二音频信号适配与用户相关联的噪声模型以生成对围绕用户的背景音频的特性建模的适配噪声模型。访问噪声模型可以包括尚未适配为对围绕用户的背景音频的特性建模的替代噪声模型。指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备选择替代噪声模型;以及将替代噪声模型与用户相关联。为了选择替代噪声模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备接收至少包括对应于由设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号;确定在记录对应于最初用户音频部分的一个或多个话语时用户的位置;以及基于在记录对应于最初用户音频部分的一个或多个话语时用户的位置从多个替代噪声模型之中选择替代噪声模型。为了选择替代噪声模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备接收至少包括对应于由设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号;确定多个替代噪声模型与基于最初音频信号确定的用户的期望噪声模型之间的相似性度量;以及基于相似性度量从多个替代噪声模型之中选择替代噪声模型。多个替代噪声模型中的每一个可以对特定位置中的背景音频的特性建模。多个替代噪声模型中的每一个可以对特定种类的环境条件中的背景音频的特性建模。为了访问噪声模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备确定在记录一个或多个话语时用户的位置;以及基于用户的位置从多个噪声模型之中选择噪声模型。音频信号可以对应于话音搜索查询,并且指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备执行对滤波音频信号的语音识别以生成一个或多个用户话语的一个或多个候选转录;使用一个或多个候选转录执行搜索查询以生成搜索结果;以及向设备发送搜索结果。在另一方面,系统包括客户端设备和自动化语音识别系统。客户端设备被配置为向自动化语音识别系统发送至少包括对应于由设备记录的一个或多个用户话语的用户音频部分的音频信号。自动化语音识别系统被配置为从客户端设备接收音频信号;访问与用户相关联的用户语音模型;确定音频信号中的背景音频在定义阈值之下;响应于确定音频信号中的背景音频在定义阈值之下,基于音频信号适配访问的用户语音模型以生成对用户的语音特性建模的适配用户语音模型;以及使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与接收的音频信号相比具有减少的背景音频的滤波音频信号。实现方式可以包括以下特征。例如,自动化语音识别系统可以被配置为对滤波音频信号执行语音识别以生成一个或多个用户话语的一个或多个候选转录。系统可以包括搜索引擎系统,其本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.06.14 US 12/814,6651.一种系统,包括 一个或多个处理设备;以及 一个或多个存储设备,其存储有指令,当所述指令被所述一个或多个处理设备执行时,使得所述一个或多个处理设备 接收由设备基于来自用户的音频输入生成的音频信号,所述音频信号至少包括对应于由所述设备记录的一个或多个用户话语的用户音频部分; 访问与所述用户相关联的用户语音模型; 确定所述音频信号中的背景音频在定义阈值以下; 响应于确定所述音频信号中的所述背景音频在所述定义阈值以下,基于所述音频信号适配访问的用户语音模型以生成对所述用户的语音特性建模的适配用户语音模型;以及使用所述适配用户语音模型对接收的音频信号执行噪声补偿以生成与所述接收的音频信号相比具有减少的背景音频的滤波音频信号。2.根据权利要求1所述的系统,其中所述音频信号包括仅对应于围绕所述用户的背景音频的环境音频部分,并且为了确定所述音频信号中的所述背景音频在定义阈值之下,所述指令包括如下指令,当其被执行时,使得所述一个或多个处理设备 确定所述环境音频部分中的能量的量;以及 确定所述环境音频部分中的所述能量的量在阈值能量之下。3.根据权利要求2所述的系统,为了确定所述音频信号中的所述背景音频在定义阈值之下,所述指令包括如下指令,当其被执行时,使得所述一个或多个处理设备 确定所述音频信号的信噪比;以及 确定所述信噪比在阈值信噪比之下。4.根据权利要求4所述的系统,其中所述音频信号包括仅对应于围绕所述用户的背景音频的环境音频部分,并且为了确定所述音频信号的所述信噪比,所述指令包括如下指令,当其被执行时,使得所述一个或多个处理设备 确定所述音频信号的所述用户音频部分中的能量的量; 确定所述音频信号的所述环境音频部分中的能量的量;以及 通过确定所述用户音频部分与所述环境音频部分中的能量的量之间的比率来确定所述信噪比。5.根据权利要求1所述的系统,其中访问的用户语音模型包括没有被适配为对所述用户的所述语音特性建模的替代用户语音模型。6.根据权利要求5所述的系统,其中所述指令包括如下指令,当其被所述一个或多个处理设备执行时,使得所述一个或多个处理设备 选择所述替代用户语音模型;以及 将所述替代语音模型与所述用户进行关联。7.根据权利要求6所述的系统,其中为了选择所述替代用户语音模型,所述指令包括如下指令,当其被所述一个或多个处理设备执行时,使得所述一个或多个处理设备 确定所述用户的性别;以及 基于所述用户的所述性别从多个替代用户语音模型之中选择所述替代用户语音模型。8.根据权利要求6所述的系统,其中为了选择所述替代用户语音模型,所述指令包括如下指令,当其被所述一个或多个处理设备执行时,使得所述一个或多个处理设备 确定在记录所述一个或多个话语时所述用户的位置;以及 基于在记录所述一个或多个话语时所述用户的所述位置从多个替代用户语音模型之中选择所述替代用户语音模型。9.根据权利要求6所述的系统,为了选择所述替代用户语音模型,所述指令包括如下指令,当其被所述一个或多个处理设备执行时,使得所述一个或多个处理设备 确定所述用户的语言或口音;以及 基于所述语言或口音从多个替代用户语音模型之中选择所述替代用户语音模型。10.根据权利要求6所述的系统,其中为了选择所述替代用户语音模型,所述指令包括如下指令,当其被所述一个或多个处理设备执行时,使得所述一个或多个处理设备 接收至少包括对应于由所述设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号; 确定多个替代用户语音模型与基于所述最初音频信号确定的所述用户的期望用户语音模型之间的相似性度量;以及 基于所述相似性度量从所述多个替代用户语音模型之中选择所述替代用户语音模型。11.根据权利要求1所述的系统,其中所述指令包括如下指令,当其被执行时,使得所述一个或多个处理设备 访问与所述用户相关联的噪声模型;以及 其中为了执行噪声补偿,所述指令进一步包括如下指令,其使得所述一个或多个处理设备使用所述适配用户语音模型和访问噪声模型对接收的音频信号执行噪声补偿。12.根据权利要求11所述的系统,其中为了执行噪声补偿,所述指令进一步包括如下指令,其使得所述一个或多个处理设备 基于接收的音频信号适配访问噪声模型以生成对围绕所述用户的背景音频的特性建模的适配噪声模型;以及 使用所述适配用户语音模型和所述适配噪声模型来对接收的音频信号执行噪声补偿。13.根据...

【专利技术属性】
技术研发人员:M·I·洛伊德T·克里斯特詹森
申请(专利权)人:谷歌公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1