当前位置: 首页 > 专利查询>谷歌公司专利>正文

用于增强话音识别准确度的有地理标记的环境音频的系统及方法技术方案

技术编号:13306496 阅读:80 留言:0更新日期:2016-07-10 01:44
用于增强话音识别准确度的方法、系统和装置、包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括:接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;接收与由特定移动设备记录的话语对应的音频信号;确定与特定移动设备相关联的特定地理位置;使用有地理标记的音频信号的子集来针对特定地理位置生成噪声模型,其中使用已经针对特定地理位置生成的噪声模型来对与话语对应的音频信号执行噪声补偿。

【技术实现步骤摘要】
本申请是2012年10月12日进入中国国家阶段的、国际申请日为2011年3月22日的、申请号为201180019038.8的专利技术专利申请(名称为“用于增强话音识别准确度的有地理标记的环境音频”)的分案申请。相关申请的交叉引用本申请要求于2010年4月14日提交的、标题为GEOTAGGEDENVIRONMENTALAUDIOFORENHANCEDSPEECHRECOGNITIONACCURACY的第12/760,147号美国申请的优先权,其公开的内容通过引用并入于此。
本说明书涉及话音识别。
技术介绍
如在本说明书中所用,“搜索查询”包括当用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词,其中“检索词”或者“查询检索词”包括一个或者多个完全或者部分字词、字符或者字符串。搜索查询的“结果”(或者“搜索结果”)包括统一资源定位符(URI)以及其它内容,该URI引用搜索引擎确定响应于搜索查询的资源。搜索结果可以包括其它事物、比如标题、预览图像、用户评分、地图或者方向、对应资源的描述或者已经从对应资源自动或者人工提取的或者以别的方式与对应资源关联的文字摘录。在其它方式之中,用户可以通过在键盘上键入或者在话音查询的上下文中通过向移动设备的麦克风中口述查询来录入搜索查询的查询检索词。当提交语音查询时,移动设备的麦克风除了用户的口述话语之外还可能记录环境噪声或者声音或者“环境音频”。例如,环境音频可以包括处于用户周围的其他人的背景聊天或者谈话或者自然(例如,狗吠)或者人造物体(例如,办公室、机场或者公路噪声或者建筑活动)生成的噪声。环境音频可能部分地遮蔽用户的语音从而使得自动化话音识别(“ASR”)引擎难以准确识别口述话语。
技术实现思路
一般而言,可以在用于ASR引擎为地理区域适配、训练、选择或者另外生成噪声模型并且用于将这一噪声模型应用于从位于这一地理区域中或者附近的移动设备接收的“有地理标记的”音频信号(或者“采样”或者“波形”)的方法中体现本说明书中描述的主题内容的一个创新方面。如本说明书所用,“有地理标记的”音频信号指代已经与地理位置元数据或者地理空间元数据关联或者用地理位置元数据或者地理空间元数据“标记”的信号。位置元数据可以包括导航坐标如纬度和经度、海拔信息、方位或者指向信息或者与位置相关联的名称或者地址以及其它内容。更具体而言,方法包括:接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;存储有地理标记的音频信号;以及使用有地理标记的音频信号的所选子集来针对特定地理区域生成噪声模型。在接收移动设备在特定地理区域内或者附近记录的话语时,ASR引擎可以使用针对特定地理区域生成的噪声模型来对音频信号执行噪声补偿,并且可以对噪声补偿的音频信号执行话音识别。注意,可以在接收话语之前、期间或者之后生成用于特定地理区域的噪声模型。一般而言,可以在包括以下动作的方法中体现本说明书中描述的主题内容的另一创新方面:接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;接收与由特定移动设备记录的话语对应的音频信号;确定与特定移动设备相关联的特定地理位置;使用有地理标记的音频信号的子集来针对特定地理位置生成噪声模型,其中使用已经针对特定地理位置生成的噪声模型来对与话语对应的音频信号执行噪声补偿。这些方面的其它实施例包括被配置成执行方法的动作的对应系统、装置和计算机程序,所述计算机程序编码在计算机存储设备上。这些和其它实施例可以各自可选地包括以下特征中的一个或者多个特征。在各种示例中,使用噪声补偿的音频信号来对话语执行话音识别;生成噪声模型还包括在接收与话语对应的音频信号之前生成噪声模型;生成噪声模型还包括在接收与话语对应的音频信号之后生成噪声模型;为每个有地理标记的音频信号,确定在特定地理位置和与有地理标记的音频信号相关联的地理位置之间的距离,以及选择与在特定地理位置的预定距离内的地理位置相关联、或者与在N个与特定地理位置最近的地理位置之中的地理位置相关联的有地理标记的音频信号作为有地理标记的音频信号的子集;选择与特定地理位置相关联的有地理标记的音频信号作为有地理标记的音频信号的子集;基于特定地理位置、并且基于与话语关联的上下文数据选择有地理标记的音频信号的子集;上下文数据包括引用移动设备何时记录话语时的时间或者日期的数据、引用特定移动设备在记录话语时测量的速度或者运动量的数据、引用移动设备的设置的数据、或者引用移动设备的类型的数据;话语代表语音搜索查询,或者向数字口授应用或者对话系统的输入;确定特定地理位置还包括从移动设备接收引用特定地理位置的数据;确定特定地理位置还包括确定与设备相关联的以往地理位置或者默认地理位置;生成噪声模型包括使用有地理标记的音频信号的子集作为训练集来训练高斯混合模型(GMM);生成话语的一个或者多个候选转录,使用一个或者多个候选转录来执行搜索查询;处理接收的有地理标记的音频信号以排除环境音频的、包括多个移动设备的用户的语音的部分;从针对多个地理位置生成的多个噪声模型之中选择针对特定地理位置生成的噪声模型;限定围绕特定地理位置的区域,从多个噪声模型之中选择与区域内的地理位置相关联的多个噪声模型,生成选择的噪声模型的加权组合,其中使用选择的噪声模型的加权组合来执行噪声补偿;生成噪声模型还包括使用有地理标记的音频信号的子集以及使用音频信号的与话语对应的环境音频部分来为特定地理位置生成噪声模型;以及/或者区域被限定为围绕特定地理位置,以及选择在区域内记录的有地理标记的音频信号作为有地理标记的音频信号的子集可以实现本说明书中描述的主题内容的具体实施例以实现以下优点中的一个或者多个优点。ASR引擎可以提供音频信号的更好噪声抑制。可以提高话音识别准确度。可以使用环境音频信号来生成噪声模型,这些环境音频信号准确反映地理区域中的实际环境噪声。可以在服务器侧而不是在客户端设备上执行话音识别和噪声模型生成,以允许更好的过程优化并且增加计算效率。在附图和下文描述中阐述本说明书中描述的主题内容的一个或者多个实施例的细节。主题内容的其它潜在特征、方面和优点将从说明书、附图和权利要求中变得容易理解。附图说明图1是使用有地理标记的环境音频以增强话音识别准确度的示例系统的图。...

【技术保护点】
一种系统,包括:一个或者多个计算机;以及计算机可读介质,耦合到所述一个或者多个计算机,所述计算机可读介质具有存储于其上的指令,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机执行操作,所述操作包括:接收与由移动设备记录的话语对应的音频信号;确定与所述移动设备相关联的地理位置;标识与和所述地理位置相关联的环境音频相对应的有地理标记的音频信号的集合;基于与相应的有地理标记的音频信号相关联的元数据来加权所述有地理标记的音频信号的集合中的每个有地理标记的音频信号;以及使用所述有地理标记的音频信号的集合来对与所述话语对应的所述音频信号执行噪声补偿。

【技术特征摘要】
2010.04.14 US 12/760,1471.一种系统,包括:
一个或者多个计算机;以及
计算机可读介质,耦合到所述一个或者多个计算机,所述计算机可
读介质具有存储于其上的指令,所述指令在由所述一个或者多个计算机
执行时使所述一个或者多个计算机执行操作,所述操作包括:
接收与由移动设备记录的话语对应的音频信号;
确定与所述移动设备相关联的地理位置;
标识与和所述地理位置相关联的环境音频相对应的有地理标
记的音频信号的集合;
基于与相应的有地理标记的音频信号相关联的元数据来加权
所述有地理标记的音频信号的集合中的每个有地理标记的音频信号;以

使用所述有地理标记的音频信号的集合来对与所述话语对应
的所述音频信号执行噪声补偿。
2.根据权利要求1所述的系统,其中所述操作还包括接收有地理
标记的音频信号,每个有地理标记的音频信号包括所述与相应的有地理
标记的音频信号相关联的元数据。
3.根据权利要求1所述的系统,其中所述操作还包括:
接收有地理标记的音频信号;
生成用于每个有地理标记的音频信号的元数据;以及
将所述元数据与所述相应的有地理标记的音频信号相关联。
4.根据权利要求1所述的系统,其中加权每个有地理标记的音频
信号包括:基于与所述相应的有地理标记的音频信号相关联的元数据以
及与和所述话语对应的所述音频信号相关联的元数据来加权所述有地理
标记的音频信号的集合中的每个有地理标记的音频信号。
5.根据权利要求1所述的系统,其中所述元数据指示背景语音是
否存在于所述相应的有地理标记的音频信号,并且加权每个有地理标记

\t的音频信号包括:基于背景语音是否存在于所述相应的有地理标记的音
频信号来加权每个有地理标记的音频信号。
6.根据权利要求1所述的系统,其中所述元数据指示与所述相应
的有地理标记的音频信号相关联的地理位置信息的准确度,并且加权每
个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信
号相关联的地理位置信息的准确度来加权每个有地理标记的音频信号。
7.根据权利要求1所述的系统,其中所述元数据指示所述相应的
有地理标记的音频信号的长度,并且加权每个有地理标记的音频信号包
括:基于所述相应的有地理标记的音频信号的长度来加权每个有地理标
记的音频信号。
8.根据权利要求1所述的系统,其中所述元数据指示所述相应的
有地理标记的音频信号的质量,并且加权每个有地理标记的音频信号包
括:基于所述相应的有地理标记的音频信号的质量来加权每个有地理标
记的音频信号。
9.根据权利要求1所述的系统,其中所述元数据指示与所述相应
的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记
的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地
理位置接近与所述移动设备相关联的地理位置来加权每个有地理标记的
音频信号。
10.根据权利要求1所述的系统,其中所述元数据指示与所述相应
的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记
的音频信号包括:基于限定与所述相应的有地理标记的音频信号相关联
的地理位置的细节的水平来加权每个有地理标记的音频信号。
11.根据权利要求1所述的系统,其中所述元数据指示与所述相应
的有地理标记的音频信号相关联的地理位置类型,并且加权每个有地理
标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联
的地理位置类型来加权每个有地理标记的音频信号。
12.根据权利要求1所述的系统,其中所述元数据指示与所述相应
的有地理标记的音频信号相关联的移动设备的类型,并且加权每个有地

\t理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关
联的移动设备的类型来加权每个有地理标记的音频信号。
13.根据权利要求1所述的系统,其中所述元数据指示与所述相应
的有地理标记的音频信号相关联的一天中的某个时间,并且加权每个有
地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相
关联的一天中的某个时间来加权每个有地理标记的音频信号。
14.根据权利要求1所述的系统,其中所述元数据指示与所述相应
的有地理标记的音频信号相关联的一周中的某天,并且加权每个有地理
标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联
的一周中的某天来加权每个有地理标记的音频信号。
15.根据权利要求1所述的系统,其中加权每个有地理标记的音频
信号还包括:在接收与所述话语对应的所述音频信号之后,加权每个有
地理标记的音频信号。
16.根据权利要求1所述的系统,其中使用所述有地理标记的音频
信号的集合来执行噪声补偿,包括:
使用所述加权的有地理标记的音频信号的集合来生成用于所述地
理位置的噪声模型;以及
使用所生成的噪声模型对与所述话语对应的所述音频信号执行噪
声补偿。
17.根据权利要求1所述的系统,其中所述操作还包括使用所述噪
声补偿的音频信号来对所述话语执行话音识别。
18.根据权利要求1所述的系统,其中使用所述有地理标记的音频
信号的集合来执行噪声补偿,还包括:使用所述加权的有地理标记的音
频信号的集合以及使用所述音频信号的与所述话语相对应的环境音频部
分来针对与所述话语相对应的所述音频信号执行噪声补偿。
19.一种用计算机程序编码的计算机存储介质,所述程序包括指令,
所述指令在由一个或者多个计算机执行时使得所述一个或者多个计算机
执行操作,所述操作包括:
接收与由移动设备记录的话语对应的音频信号;
确定与所述移动设备相关联的地理位置;
标识与和所述地理位置相关联的环境音频相对应的有地理标记的
音频信号的集合;
基于与相应的有地理标记的音频信号相关联的元数据来加权所述
有地理标记的音频信号的集合中的每个有地理标记的音频信号;以及
使用所述有地理标记的音频信号的集合来对与所述话语对应的所
述音频信号执行噪声补偿。
20.一种计算机实现的方法,包括:
接收与由移动设备记录的话语对应的音频信号;
确定与所述移动设备相关联的地理位置;
标识与和所述地理位置相关联的环境音频相对应的有地理标记的
音频信号的集合;
基于与相应的有地理标记的音频信号相关联的元数据来加权所述
有地理标记的音频信号的集合中的每个有地理标记的音频信号;以及
使用所述有地理标记的音频信号的集合来对与所述话语对应的所
述音频信号执行噪声补偿。
21.根据权利要求20所述的计算机实现的方法,其中所述操作还
包括接收有地理标记的音频信号,每个有地理标记的音频信号包括所述
与相应的有地理标记的音频信号相关联的元数据。
22.根据权利要求20所述的计算机实现的方法,其中所述操作还
包括:接收有地理标记的音频信号;生成用于每个有地理标记的音频信
号的元数据;以及将所述元数据与所述相应的有地理标记的音频信号相
关联。
23.根据权利要求20所述的计算机实现的方法,其中所述元数据
指示背景语音是否存在于所述相应的有地理标记的音频信号,并且加权
每个有地理标记的音频信号包括:基于背景语音是否存在于所述相应的
有地理标记的音频信号来加权每个有地理标记的音频信号。
24.根据权利要求20所述的计算机实现的方法,其中所述元数据

\t指示与所述相应的有地理标记的音频信号相关联的地理位置信息的准确
度,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地
理标记的音频信号相关联的地理位置信息的准确度来加权每个有地理标
记的音频信号。
25.根据权利要求20所述的...

【专利技术属性】
技术研发人员:T·克里斯特詹森M·I·洛伊德
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1