当前位置: 首页 > 专利查询>谷歌公司专利>正文

基于位置标记的语音识别模型制造技术

技术编号:11265813 阅读:100 留言:0更新日期:2015-04-08 11:42
公开了用于使用模型执行语音识别的方法、系统和包括编码在计算机存储介质上的计算机程序的装置,该模型基于其中说话者做出话语的建筑物内的位置。所述方法、系统和装置包括接收对应于话语的数据和获得用于其中话语被说出的建筑物内的区域的位置标记的动作。进一步的动作包括基于位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于位置标记的权重相关联。此外,动作还包括使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重生成复合模型。所述动作还包括使用复合模型生成话语的转录。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】公开了用于使用模型执行语音识别的方法、系统和包括编码在计算机存储介质上的计算机程序的装置,该模型基于其中说话者做出话语的建筑物内的位置。所述方法、系统和装置包括接收对应于话语的数据和获得用于其中话语被说出的建筑物内的区域的位置标记的动作。进一步的动作包括基于位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于位置标记的权重相关联。此外,动作还包括使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重生成复合模型。所述动作还包括使用复合模型生成话语的转录。【专利说明】基于位置标记的语音识别模型 相关申请的夺叉引用 本申请要求于2012年8月1日提交的序列号为61/678, 277和于2012年10月15 日提交的序列号为13/651,566的美国临时申请的权益,其整体如同完全记载于此一样通 过引用的方式并入。
本说明书总体上涉及自动语音识别。
技术介绍
语音识别通常依赖于所说语言的语音识别模型。然而,对于给定的语言(或给定 语言的方言),取决于在何处发出词语而不同地使用词语。例如,当人在他们的客厅中时, 他们可能频繁地使用与电视节目和媒体播放器的控制相关的词语,而当人在他们的厨房中 时,他们可能使用与食物类型或烹饪相关的词语。用于语音识别的典型语言模型通常没有 考虑到在说出词语处的位置特定情境,特别是对于在建筑物(例如在家)内的词语使用的 变化。
技术实现思路
一般而言,本说明书中所描述的主题的一方面可以包括自动语音识别引擎(ASR), 该自动语音识别引擎使用基于说话者在建筑物中何处做出话语的模型,执行语音识别。在 一些实现方式中,该语音识别模型可以是基于两个或更多情境特定模型的复合模型。ASR引 擎可以将话语转录成文本,例如用于语音查询,或者通过处理器执行将话语转换成命令。 在某些方面,本说明书中所描述的主题可以体现为方法,该方法包括接收对应于 话语的数据和获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。进一步的 动作包括基于位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多 个模型与基于位置标记的权重相关联。此外,所述动作还包括使用所选择的一个或多个模 型和所选择的一个或多个模型的相应权重来生成复合模型。所述动作还包括使用复合模型 生成话语的转录。 主题的另一方面可以体现为方法,该方法包括在客户端设备处接收话语和在客户 端设备处获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。所述动作还包 括从客户端设备向服务器传送对应于话语和用于其中话语被说出的建筑物内的区域的位 置标记的数据。并且所述动作包括在客户端设备处接收话语的转录。在一些方面,使用复 合模型生成话语的转录,并且使用一个或多个模型和基于位置标记而选择的一个或多个模 型的相应权重来生成复合模型。 其他版本包括相对应的系统、装置和被配置为执行所述方法的动作的计算机程 序,该计算机程序编码在计算机存储设备上。 这些和其他的版本可以每个可选择地包括以下特征中的一个或多个特征。例如, 一些实现方式涉及到从客户端设备接收对应于话语的数据,从客户端设备接收用于其中该 话语被说出的建筑物内的区域的位置标记。该位置标记可以为基于在客户端设备处接收的 短程无线电传输的位置数据。 一些实现方式涉及到使用位置无关语言模型生成话语的一个或多个候选转录,并 且然后基于将一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较,标 识建筑物内的一个或多个候选区域。 某些实现方式涉及到从在建筑物处的处理系统接收对应于话语的数据,并且从在 建筑物处的处理系统接收用于其中话语被说出的建筑物内的区域的位置标记。在一些方 面,位置标记为从处理系统获得的位置数据。处理系统使用被布置在建筑物中的麦克风阵 列定位话语,其中麦克风阵列可操作地耦合到处理系统。 此外,在一些实现方式中,所选择的用于语音识别的模型为语言模型,并且复合模 型为复合语言模型。在一些实现方式中,所选择的用于语音识别的模型为声学模型,并且复 合模型为复合声学模型。并且在一些实现方式中,所选择的用于语音识别的模型为语言模 型和声学模型,并且复合模型为复合语言模型和复合声学模型。 在下文的附图和描述中记载了本说明书所描述的主题的一个或多个实施例的细 节。所述主题的其他特征、方面以及优点将根据描述、附图和权利要求而变得清楚。 【专利附图】【附图说明】 图la和lb是生成位置相关语音识别模型和使用位置相关语音识别模型执行语音 识别的示例系统的图。 图2是生成和获得位置相关声学模型以用于在语音识别中使用的样本ASR引擎的 组件的图。 图3a和3b是生成和获得位置相关语音模型以用于在语音识别中使用的样本ASR 引擎的组件的图。 图4是用于使用基于位置标记的语音识别模型来执行语音识别的示例过程的流 程图。 在不同附图中相同的附图的标记表示相同的元件。 【具体实施方式】 如下所述,ASR引擎可以基于在建筑物(例如用户的家)中用户做出话语所处的 区域(例如房间),使语音识别模型偏向,或者选择完全不同的语音识别模型。这可以涉及 到若干特征。第一,安装在建筑物中的客户端设备和/或应答器系统被用来当用户在建筑 物中移动并做出话语时估计他们的位置。第二,在训练阶段期间,ASR引擎使用位置无关语 音识别模型来执行语音识别,并从遍及建筑物的各个位置收集话语的转录。第三,转录可以 被用来生成位置相关语音识别模型,该位置相关语音识别模型可以随后被用来执行语音识 另IJ。在一些方面,可以将来自多个用户和/或多个建筑物的转录组合以生成聚合的位置相 关语音识别模型。例如,可以将处于或者靠近位于各个建筑物的厨房的多个话语的转录组 合以生成厨房特定语音识别模型。 如在本公开中使用的,位置相关语音识别模型是被偏向于与建筑物的给定区域相 关的主题、词语、噪声和/或声学特征(signature)的模型。本公开中所使用的区域指的是 建筑物的功能部分(例如厨房、餐厅、卧室、客厅、洗手间、办公室)。在不同的建筑物中,相 同类型的区域(例如厨房)可以具有不同的尺寸和声学特性(例如混响),但是可以共享相 似的噪声特征和词汇。例如,一室公寓中的厨房与大的独户住宅中的厨房相比可能具有不 同的声学特性,但是仍然可以具有共同的噪声和语义主题。因此,与厨房区域相关联的位置 相关模型可以包括与食物和烹饪主题和/或在厨房中最常发现的噪声(例如微波炉、搅拌 器、洗碗机等)相关的词语。位置无关语音识别模型是不偏向于住宅的任何特定区域的模 型。 此外,在本公开中,人说出的短语被称为话语。一般而言,话语可以包含一个或多 个词语。话语可以表示任何语音通信类型,例如(例如为了操作家庭自动化系统的)基于 语音的指令、命令或动作,基于语音的搜索查询、口述(dictation)、对话系统或者使用经转 录的语音或者调用使用经转录的语音来执行动作的软件应用的任何其他输入。 图la示出了生成位置相关语音识别模型和使用位置相关语音识别模型执行语音 识别的示例系统1〇〇。图la还示出了语音识别在执行时处理器系统1本文档来自技高网...

【技术保护点】
一种计算机实现的方法,包括:接收对应于话语的数据;获得用于其中所述话语被说出的建筑物内的区域的位置标记;基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联;使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型;使用所述复合模型生成所述话语的转录。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:G·陶布曼B·斯特罗普
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1