当前位置: 首页 > 专利查询>谷歌公司专利>正文

使用地理信息的声学模型适配制造技术

技术编号:11387823 阅读:90 留言:0更新日期:2015-05-02 00:00
用于增强语音识别准确度的方法、系统和装置、包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括:接收与移动设备记录的讲话对应的音频信号;确定与移动设备关联的地理位置;针对地理位置适配一个或者多个声学模型;并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。

【技术实现步骤摘要】
使用地理信息的声学模型适配本申请是申请号为201180021722.X、申请日为2011年5月23日、专利技术名称为“使用地理信息的声学模型适配”的专利技术专利申请的分案申请。相关申请的交叉引用本申请要求标题为ACOUSTICMODELADAPTATIONUSINGGEOGRAPHICINFORMATION、于2010年5月26日提交的第12/787,568号美国申请的优先权,通过援引将其公开内容并入于此。
本说明书涉及语音识别。
技术介绍
移动设备的用户可以例如通过在键盘上键入或者向麦克风中口述来录入文字。在话音输入的背景中,自动化搜索识别(“ASR”)引擎可能在与特定语言关联的声音基于用户的口音而变化时准确识别口述单词有困难。例如在由纽约人或者波士顿人口述时,典型ASR引擎可能识别单词“park”分别为单词“pork”或者“pack”。
技术实现思路
一般而言,在本说明书中描述的主题内容的一个创新方面可以体现于方法中,这些方法用于ASR引擎自动地训练、选择、生成或者否则适配在地理位置上专属(或者“地理专属”)于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行“地理标注”的音频信号(或者“采样”或者“波形”)以通过比较音频信号与声音的统计表示来执行语音识别,这些声音组成特定语言的每个单词。一个或者多个声学模型可以包括在地理位置上专属于单个地理区域或者多个地理区域的单个声学模型。如本说明书中所用,“地理标注”的音频信号指代已经与位置元数据(例如地理位置元数据或者相对位置元数据)或者地理空间元数据关联或者用该元数据“标注”的信号。除其他以外,位置元数据可以包括导航坐标如纬度和经度、海拔信息、方位或者航向信息、与位置关联的名称或者地址信息、相对位置或者方向信息或者引用位置类型的信息。用于适配声学模型的方法包括接收多个移动设备在多个地理位置记录的地理标注的音频信号并且使用地理标注的音频信号中的至少部分来适配一个或者多个声学模型。在接收移动设备在地理位置之一内或者附近记录的讲话时,ASR引擎可以使用一个或者多个适配的声学模型对讲话执行语音识别。显然可以在接收讲话之前、期间或者之后适配声学模型。讲话可以对应于任何类型的话音输入、比如向话音搜索查询系统、口授系统或者对话系统的输入。在话音搜索查询系统的情境中,“搜索查询”包括在用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词,其中“检索词”或者“查询检索词”包括一个或者多个全部或者部分单词、字符或者字符串。除其他以外,搜索查询的“结果”(或者“搜索结果”)包括引用如下资源的统一资源标识符(URI),搜索引擎确定该资源响应于搜索查询。除其他以外,搜索结果可以比如包括标题、预览图像、用户等级、地图或者方向、对应资源的描述或者已经从对应资源自动或者手动提取或者否则与对应资源关联的文字摘录。一般而言,在本说明书中描述的主题内容的另一创新方面可以实现于包括以下动作的方法中:接收与移动设备记录的讲话对应的音频信号;确定与移动设备关联的地理位置;针对地理位置适配一个或者多个声学模型;并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。这些方面的其它实施例包括配置成执行方法的动作的对应系统、装置和在计算机存储设备上编码的计算机程序。这些和其它实施例可以各自可选地包括以下特征中的一个或者多个特征。在各种例子中,适配一个或者多个声学模型还包括在接收与讲话对应的音频信号之前适配一个或者多个声学模型;适配一个或者多个声学模型还包括在接收与讲话对应的音频信号之后适配一个或者多个声学模型;动作还包括接收与多个移动设备在多个地理位置记录的音频对应的地理标注的音频信号;并且针对地理位置适配一个或者多个声学模型还包括使用地理标注的音频信号的子集针对地理位置适配一个或者多个声学模型;动作还包括:针对地理标注的音频信号中的每个地理标注的音频信号确定在与移动设备关联的地理位置和与地理标注的音频信号关联的地理位置之间的距离;并且选择与在与移动设备关联的地理位置的预定距离内的地理位置关联、或者与在与关联于移动设备的地理位置最近的N个地理位置之中的地理位置关联的地理标注的音频信号作为地理标注的音频信号的子集;动作还包括选择与也与移动设备关联的地理位置关联的地理标注的音频信号作为地理标注的音频信号的子集;动作还包括基于与移动设备关联的地理位置和基于与讲话关联的情境数据选择地理标注的音频信号的子集;情境数据包括对移动设备记录讲话时的时间或者日期进行引用的数据、对移动设备在记录讲话时测量的速度或者运动量进行引用的数据、引用移动设备的设置的数据或者引用移动设备的类型的数据;适配声学模型包括使用地理标注的音频信号的子集作为训练集来训练高斯混合模型(GMM);讲话代表话音搜索查询或者向数字口授应用或者对话系统的输入;确定地理位置还包括从移动设备接收引用地理位置的数据;确定地理位置还包括确定与移动设备关联的以往地理位置或者默认地理位置;动作还包括:生成讲话的一个或者多个候选转录;并且使用一个或者多个候选转录来执行搜索查询;针对地理位置适配一个或者多个声学模型还包括从已经针对多个地理位置生成的多个声学模型之中选择针对与移动设备关联的地理位置生成的一个或者多个声学模型;针对地理位置适配一个或者多个声学模型还包括向单个声学模型使用的特征空间中并入引用地理位置的数据;向单个声学模型使用的特征空间中并入引用地理位置的数据还包括向单个声学模型使用的特征空间中并入值,其中值包括梅尔频率倒频谱系数和地理坐标;针对地理位置适配一个或者多个声学模型还包括向在单个声学模型中包括的状态信息中并入引用地理位置的数据;和/或针对地理位置适配一个或者多个声学模型还包括:推导与地理位置关联的变换矩阵;并且将变换矩阵应用于单个通用声学模型。可以实施在本说明书中描述的主题内容的具体实施例以实现以下优点中的一个或者多个优点。可以提高语音识别准确度。可以使用准确地反映口音、方言或存在于给定语言中的语音模式中的差异的讲话以及可以跨不同的地理区域发生的讲话来适配声学模型。语音识别可以在服务器侧处执行,而非在客户端设备上执行,以允许增强处理优化并且增加计算效率。在附图和下文描述中阐述在本说明书中描述的主题内容的一个或者多个实施例的细节。主题内容的其它潜在特征、方面和优点将从该描述和附图中变得清楚。附图说明图1是使用地理标注的音频以增强语音识别准确度的例子系统的图。图2和图3是例子过程的流程图。图4是例子过程的泳道图。各种附图中的相似标号指示相似要素。具体实施方式图1是使用地理标注的音频以增强语音识别准确度的例子系统100的图。图1也图示了在状态(a)至(i)期间在系统100内的数据流以及在状态(i)期间在系统100的移动设备102上显示的用户接口101。简言之,系统100适配地理专属于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行地理标注的音频信号,以通过比较音频信号与声音的统计表示来执行语音识别,这些声音组成特定语言的每个单词。更具体而言,系统100包括通过一个或者多个网络106与服务器104和ASR引擎105通信的移动设备102。服务器104可以是搜索引擎、口授引擎、对话本文档来自技高网...

【技术保护点】
一种系统,包括:一个或者多个计算机;以及计算机可读介质,耦合到所述一个或者多个计算机,具有存储于所述计算机可读介质上的指令,所述指令在由所述一个或者多个计算机执行时,使所述一个或者多个计算机执行操作,所述操作包括:接收与移动设备记录的讲话对应的音频信号;确定与所述移动设备关联的地理位置;确定与所述地理位置关联的地理位置类型;基于与所述移动设备的所述地理位置关联的所述地理位置类型以及基于与所述讲话关联的情境数据选择地理标注的音频信号的子集,其中所述情境数据包括对所述移动设备记录所述讲话时的时间或者日期进行引用的数据、对所述移动设备在记录所述讲话时测量的速度或者运动量进行引用的数据、引用所述移动设备的设置的数据或者引用所述移动设备的类型的数据;针对所述地理位置类型适配一个或者多个声学模型;以及使用针对所述地理位置类型适配的所述一个或者多个声学模型对所述音频信号执行语音识别。

【技术特征摘要】
2010.05.26 US 12/787,5681.一种用于适配声学模型的系统,所述系统包括:一个或者多个计算机;以及计算机可读介质,耦合到所述一个或者多个计算机,具有存储于所述计算机可读介质上的指令,所述指令在由所述一个或者多个计算机执行时,使所述一个或者多个计算机执行操作,所述操作包括:接收与移动设备记录的讲话对应的音频信号;确定与所述移动设备关联的地理位置;确定与所述地理位置关联的地理位置类型;基于与所述移动设备的所述地理位置关联的所述地理位置类型来选择地理标注的音频信号的子集;使用所述地理标注的音频信号的所述子集针对所述地理位置类型适配一个或者多个声学模型;以及使用针对所述地理位置类型适配的所述一个或者多个声学模型对所述音频信号执行语音识别。2.根据权利要求1所述的系统,其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之前适配一个或者多个声学模型。3.根据权利要求1所述的系统,其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之后适配一个或者多个声学模型。4.根据权利要求1所述的系统,其中所述操作还包括:针对所述地理标注的音频信号中的每个地理标注的音频信号确定在与所述移动设备关联的所述地理位置和与所述地理标注的音频信号关联的地理位置之间的距离;以及选择与在与所述移动设备关联的所述地理位置的预定距离内的地理位置关联、或者与在与关联于所述移动设备的所述地理位置最近的N个地理位置之中的地理位置关联的所述地理标注的音频信号作为所述地理标注的音频信号的所述子集。5.根据权利要求1所述的系统,其中所述操作还包括基于与所述移动设备的所述地理位置关联的所述地理位置类型和基于与所述讲话关联的情境数据来选择所述地理标注的音频信号的所述子集。6.根据权利要求5所述的系统,其中所述情境数据包括对所述移动设备记录所述讲话时的时间或者日期进行引用的数据、对所述移动设备在记录所述讲话时测量的速度或者运动量进行引用的数据、引用所述移动设备的设置的数据或者引用所述移动设备的类型的数据。7.根据权利要求1所述的系统,其中适配所述声学模型包括使用所述地理标注的音频信号的所述子集作为训练集来训练高斯混合模型(GMM)。8.根据权利要求1所述的系统,其中所述讲话代表语音搜索查询或者向数字口授应用或者对话系统的输入。9.根据权利要求1所述的系统,其中确定所述地理位置类型还包括从所述移动设备接收引用所述地理位置...

【专利技术属性】
技术研发人员:M·I·洛伊德T·克里斯特詹森
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1