用于语音识别的语音模型和噪声模型制造技术

技术编号：8629653 阅读：143 留言：0更新日期：2013-04-26 18:38

接收由设备基于来自用户的音频输入生成的音频信号。该音频信号可以至少包括对应于由设备记录的一个或多个用户话语的用户音频部分。可以访问与用户相关联的用户语音模型，并且可以进行音频信号中的背景音频在定义阈值以下的确定。响应于确定音频信号中的背景音频在定义阈值以下，可以基于音频信号适配访问的用户语音模型以生成对用户的语音特性建模的适配用户语音模型。可以使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与所述接收的音频信号相比具有减少的背景音频的滤波音频信号。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本说明书涉及语音识别。
技术介绍
语音识别可以用于话音搜索查询。通常，搜索查询包括当用户请求搜索引擎执行搜索时用户向搜索引擎提交的一个或者多个查询项。在其他方式中，用户可以通过在键盘上键入或者在话音查询的情况下通过向例如移动设备的麦克风中口述查询项来录入搜索查询的查询项。当通过例如移动设备提交话音查询时，移动设备的麦克风除了用户的口述话语之外还可能记录环境噪声或者声音，在其他方面被称作“环境音频”或“背景音频”。例如，环境音频可以包括位于用户周围的其他人的背景聊天或者谈话或者由自然(例如，狗吠)或者人造物体(例如，办公室、机场或者公路噪声或者建筑活动)生成的噪声。环境音频可能部分地遮蔽用户的话音，从而使得自动化语音识别(“ASR”)引擎难以准确识别口述话语。
技术实现思路
在一个方面，一种系统包括一个或多个处理设备以及存储有指令的一个或多个存储设备，当指令被一个或多个处理设备执行时，使得一个或多个处理设备接收由设备基于来自用户的音频输入生成的音频信号，音频信号至少包括对应于由设备记录的一个或多个用户话语的用户音频部分；访问与用户相关联的用户语音模型；确定音频信号中的背景音频在定义阈值以下；响应于确定音频信号中的背景音频在定义的阈值以下，基于音频信号适配访问的用户语音模型以生成对用户语音特性建模的适配用户语音模型；以及使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与接收的音频信号相比具有减少的背景音频的滤波音频信号。实现方式可以包括一个或多个以下特征。例如，音频信号可以包括仅对应于围绕用户的背景音频的环境音频部分以确定音频信号中的背景音频在定义阈值之下...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.06.14 US 12/814,6651.一种系统，包括一个或多个处理设备；以及一个或多个存储设备，其存储有指令，当所述指令被所述一个或多个处理设备执行时，使得所述一个或多个处理设备接收由设备基于来自用户的音频输入生成的音频信号，所述音频信号至少包括对应于由所述设备记录的一个或多个用户话语的用户音频部分；访问与所述用户相关联的用户语音模型；确定所述音频信号中的背景音频在定义阈值以下；响应于确定所述音频信号中的所述背景音频在所述定义阈值以下，基于所述音频信号适配访问的用户语音模型以生成对所述用户的语音特性建模的适配用户语音模型；以及使用所述适配用户语音模型对接收的音频信号执行噪声补偿以生成与所述接收的音频信号相比具有减少的背景音频的滤波音频信号。2.根据权利要求1所述的系统，其中所述音频信号包括仅对应于围绕所述用户的背景音频的环境音频部分，并且为了确定所述音频信号中的所述背景音频在定义阈值之下，所述指令包括如下指令，当其被执行时，使得所述一个或多个处理设备确定所述环境音频部分中的能量的量；以及确定所述环境音频部分中的所述能量的量在阈值能量之下。3.根据权利要求2所述的系统，为了确定所述音频信号中的所述背景音频在定义阈值之下，所述指令包括如下指令，当其被执行时，使得所述一个或多个处理设备确定所述音频信号的信噪比；以及确定所述信噪比在阈值信噪比之下。4.根据权利要求4所述的系统，其中所述音频信号包括仅对应于围绕所述用户的背景音频的环境音频部分，并且为了确定所述音频信号的所述信噪比，所述指令包括如下指令，当其被执行时，使得所述一个或多个处理设备确定所述音频信号的所述用户音频部分中的能量的量；确定所述音频信号的所述环境音频部分中的能量的量；以及通过确定所述用户音频部分与所述环境音频部分中的能量的量之间的比率来确定所述信噪比。5.根据权利要求1所述的系统，其中访问的用户语音模型包括没有被适配为对所述用户的所述语音特性建模的替代用户语音模型。6.根据权利要求5所述的系统，其中所述指令包括如下指令，当其被所述一个或多个处理设备执行时，使得所述一个或多个处理设备选择所述替代用户语音模型；以及将所述替代语音模型与所述用户进行关联。7.根据权利要求6所述的系统，其中为了选择所述替代用户语音模型，所述指令包括如下指令，当其被所述一个或多个处理设备执行时，使得所述一个或多个处理设备确定所述用户的性别；以及基于所述用户的所述性别从多个替代用户语音模型之中选择所述替代用户语音模型。8.根据权利要求6所述的系统，其中为了选择所述替代用户语音模型，所述指令包括如下指令，当其被所述一个或多个处理设备执行时，使得所述一个或多个处理设备确定在记录所述一个或多个话语时所述用户的位置；以及基于在记录所述一个或多个话语时所述用户的所述位置从多个替代用户语音模型之中选择所述替代用户语音模型。9.根据权利要求6所述的系统，为了选择所述替代用户语音模型，所述指令包括如下指令，当其被所述一个或多个处理设备执行时，使得所述一个或多个处理设备确定所述用户的语言或口音；以及基于所述语言或口音从多个替代用户语音模型之中选择所述替代用户语音模型。10.根据权利要求6所述的系统，其中为了选择所述替代用户语音模型，所述指令包括如下指令，当其被所述一个或多个处理设备执行时，使得所述一个或多个处理设备接收至少包括对应于由所述设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号；确定多个替代用户语音模型与基于所述最初音频信号确定的所述用户的期望用户语音模型之间的相似性度量；以及基于所述相似性度量从所述多个替代用户语音模型之中选择所述替代用户语音模型。11.根据权利要求1所述的系统，其中所述指令包括如下指令，当其被执行时，使得所述一个或多个处理设备访问与所述用户相关联的噪声模型；以及其中为了执行噪声补偿，所述指令进一步包括如下指令，其使得所述一个或多个处理设备使用所述适配用户语音模型和访问噪声模型对接收的音频信号执行噪声补偿。12.根据权利要求11所述的系统，其中为了执行噪声补偿，所述指令进一步包括如下指令，其使得所述一个或多个处理设备基于接收的音频信号适配访问噪声模型以生成对围绕所述用户的背景音频的特性建模的适配噪声模型；以及使用所述适配用户语音模型和所述适配噪声模型来对接收的音频信号执行噪声补偿。13.根据...

【专利技术属性】
技术研发人员：M·I·洛伊德，T·克里斯特詹森，
申请(专利权)人：谷歌公司，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人