当前位置: 首页 > 专利查询>微软公司专利>正文

语音识别宏运行时环境制造技术

技术编号:4590801 阅读:228 留言:0更新日期:2012-04-11 18:40
所公开的语音识别系统允许用户在不进行大量软件开发的情况下定义个性化的、上下文知晓的语音命令。可使用用户友好语言来定义命令集并将其存储在可扩展标记语言(XML)文档中。命令集内的每个命令对象可包括一个或多个用户可配置动作、一条或多条可配置规则、以及一个或多个可配置条件。命令集可由命令集加载器来管理,该命令集加载器加载每个命令集并将其处理成计算机可执行代码。命令集加载器可以启用和禁用命令集。宏处理组件可以基于当前启用的命令来向语音识别引擎的API提供语音识别语法。在语音识别引擎识别到与该语法一致的用户语音时,宏处理组件可以发起一个或多个计算机可执行动作。

【技术实现步骤摘要】
【国外来华专利技术】语音识别宏运行时环境背景用于计算机用户的早期语音识别系统已经提供了基本口述功能。这些系统 将口述单词转换为书写文本。通常这些系统被实现为与诸如文字处理应用程序等其它用户应用程序合作地运行于计算机的操作系统之上的用户应用程序。稍后的语音识别系统有时通过提供静态、预定义操作来包括除口述之外的命令和控制功能。这些操作允许用户界面的有限控制,诸如开启应用程序和在应用程序之间切换。使用这些传统语音识别系统,创建新语音命令需要语音识别应用程序编程接口 (API)的知识和诸如0++编程等大量软件开发。新的操作将需要自定义开发的软件应用程序与语音识别API接口 。因为需要庞大的开发工作来使用这些系统创建、更新、以及维护新的操作,所以提供个性化操作、适应个别用户的需要是不切实际的。 概述此处所公开的语音识别系统允许用户在不进行大量软件开发的情况下定 义个性化的、上下文知晓的语音命令。命令集可使用用户友好宏语言来定义。 命令集内的命令对象可以包括一个或多个用户可配置动作、 一条或多条可配置 规则、以及零个或更多可配置条件。命令集可由软件子系统命令集加载器来管理,该命令集加载器加载每 一命令集并将其处理成诸如公共对象模型(COM)对象等计算机可执行代码。 命令数据可由可扩展标记语言(XML)文件来定义。例如,XML文件可由 软件提供者创建、由用户直接创建、和/或由用户经由一系列用户界面提示来创 建。命令集加载器可以监视命令数据中的改变并可以改变、启用和/或禁用命令 集。该语音识别系统可以包括宏处理组件。该宏处理组件可以与所加载的命令 集和计算机的语音识别引擎进行接口 。宏处理组件可以评估命令以根据每一命令所包括的条件的评估来确定哪条命令现在被启用。宏处理组件可以基于当前 启用的命令来向语音识别引擎提供语音识别语法。可以监视条件和/或命令本身 来寻找改变。条件的评估中的改变和/或命令本身中的改变可以指示宏处理组件 生成经更新的语法并向语音识别引擎提供该经更新的语法。在语音识别弓I擎识别出与语法一致的用户语音时,语音识别引擎可以向宏 处理组件提供识别指示。该宏处理组件可以确定对应命令。宏处理组件可以处 理每一对应命令,以发起与该对应命令相关联的一个或多个计算机可执行动 作。因此,用户可以在不进行大量计算机编程和/或自定义软件开发的情况下定 义复杂的启用语音的宏。提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的 一些概念。本
技术实现思路
并不旨在标识出所要求保护的主题的关键特征或必要特 征,也不旨在用于限定所要求保护的主题的范围。附图简述附图说明图1示出示例性计算环境。图2示出用于处理语音识别宏的示例系统。图3示出使用语音识别引擎的示例方法。详细描述本专利技术的许多实施例可在计算机上执行。图1及以下讨论旨在提供可在其 中实现本专利技术的合适计算环境的简要概括描述。尽管并非所需,但本专利技术将在 诸如程序模块等由诸如客户机工作站或服务器等计算机执行的计算机可执行 指令的一般上下文中描述。 一般而言,程序模块包括执行特定任务或实现特定 抽象数据类型的例程、程序、对象、组件、数据结构等。而且,本领域的技术 人员可以理解,本专利技术方法可以使用其它计算机系统配置来实现,包括手持式 设备、多处理器、基于微处理器或可编程消费电子产品、网络PC、小型机、 大型计算机等。本专利技术也可以在其中任务由通过通信网络链接的远程处理设备 执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于本地 和远程存储器存储设备中。图1示出了在其中可实现各示例实施例和各方面的示例性计算环境。计算系统环境ioo只是合适计算环境的一个示例,并非旨在对使用范围或功能提出 任何限制。也不应该把计算环境100解释为对示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。可以使用多种其它通用或专用计算系统环境或配置。适合与本专利技术一起使 用的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机、服务器 计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机、大型计算机、嵌入式系统、包括任何以上系统或设备的分布式计算环境等等。可以使用诸如程序模块等可由计算机执行的计算机可执行指令。 一般而 言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、 组件、数据结构等。也可使用其中任务由通过通信网络链接的远程处理设备执 行的分布式计算环境。在分布式计算环境中,程序模块可以位于包括存储器存 储设备的本地和远程计算机存储介质中。参考图1,示例性系统包括计算机110形式的通用计算设备。计算机110 的组件可以包括,但不限于,处理单元120、系统存储器130和将包括系统存 储器在内的各种系统组件耦合至处理单元120的系统总线121。处理单元120 可表示诸如多线程处理器上支持的多个逻辑处理单元。系统总线121可以是几 种类型的总线结构中的任何一种,包括存储器总线或存储控制器、外围总线、 以及使用各种总线体系结构中的任一种的局部总线。作为示例,而非限制,这 样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA) 总线、增强型ISA (EISA)总线、视频电子技术标准协会(VESA)局部总线 和外围部件互连(PCI)总线(也称为夹层(Mezzanine)总线)。系统总线121 也可被实现为点对点连接、交换光纤等通信设备。计算机110通常包括各种计算机可读介质。计算机可读介质可以是能由计 算机110访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不 可移动介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通 信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程 序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动7和不可移动介质。计算机存储介质包括但不限于,RAM、 ROM、 EEPROM、 闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、 磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可 由计算机110访问的任一其它介质。通信介质通常以诸如载波或其它传输机制 等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据, 并包括任意信息传送介质。术语已调制数据信号指的是其一个或多个特征 以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介 质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、 红外线和其它无线介质。以上的任何组合也应包括在计算机可读介质的范围内。系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质, 如只读存储器(ROM) Bl和随机存取存储器(RAM) 132。基本输入/输出系 统133 (BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基 本例程,它通常储存在ROM131中。RAM132通常包含处理单元120可以立 即访问和/或目前正在其上操作的数据和/或程序模块。作为示例而非限制,图 1示出操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110也可以包括其它可移动/本文档来自技高网
...

【技术保护点】
一种使用语音识别引擎(202)的方法,所述方法包括: 接收第一命令对象(216),其中所述第一命令对象包括指示单词、条件、以及第一计算机可执行动作的第一数据; 评估所述条件; 根据所述评估的结果来生成包括所述单词的第一语音 识别语法(224); 将所述第一语音识别语法(224)传送到所述语音识别引擎(202);以及 响应于从所述语音识别引擎(202)接收到识别指示来执行所述第一计算机可执行动作,其中所述识别指示与所述单词相关联。

【技术特征摘要】
【国外来华专利技术】US 2007-5-17 60/938,518;US 2008-3-18 12/048,7141.一种使用语音识别引擎(202)的方法,所述方法包括接收第一命令对象(216),其中所述第一命令对象包括指示单词、条件、以及第一计算机可执行动作的第一数据;评估所述条件;根据所述评估的结果来生成包括所述单词的第一语音识别语法(224);将所述第一语音识别语法(224)传送到所述语音识别引擎(202);以及响应于从所述语音识别引擎(202)接收到识别指示来执行所述第一计算机可执行动作,其中所述识别指示与所述单词相关联。2. 如权利要求1所述的方法,其特征在于,所述第一命令对象(216)由 可扩展标记语言(XML)文件(214)来定义。3. 如权利要求2所述的方法,其特征在于,还包括监视目录位置来寻找所 述XML文件(214)。4. 如权利要求2所述的方法,其特征在于,还包括根据真正简单聚合 (RSS)订阅源来下载所述XML文件(214)。5. 如权利要求2所述的方法,其特征在于,还包括验证与所述XML文件 (214)相关联的数字证书。6. 如权利要求1所述的方法,其特征在于,还包括监视所述条件来寻找所 述结果的改变,其中根据所述改变来生成第二语音识别语法(224)。7. 如权利要求1所述的方法,其特征在于,还包括接收第二命令对象,其 中所述第二命令对象包括指示第二计算机可执行动作的第二数据;其中所述第 二计算机可执行动作在被执行时定义所述第一命令对象(216)。8. 如权利要求7所述的方法,其特征在于,所述第二计算机可执行动作在 被执行时定义所述第一命令对象(216)的条件。9. 如权利要求8所述的方法,其特征在于,所述第二计算机可执行动作在 被执行时定义命名状态的值,且其中所述第一命令对象(216)的条件取决于所述命名状态的值。10. 如权利要求1所述的方法,其特征在于,所述单词与语义特性相关 联,且其中所述第一计算机可执行动作的参数取决于所述语义特性。11. 一种系统,包括第一命令集(206),其中所述第一命令集包括第一命令对象(216),且 其中所述第一命令对象(216)包括指示第一单词、条件、以及计算机可执行 动作的第一数据;语音识别组件(202),其中所述语音识别组件(202)适用于接收语法(224) 并响应于与所述语法(224) —致的语音来返回识别指示;以及与所述语音识别组件(202)进行通信的宏...

【专利技术属性】
技术研发人员:RL钱伯斯B金
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利