当前位置: 首页 > 专利查询>微软公司专利>正文

语法创建系统技术方案

技术编号:2877443 阅读:164 留言:0更新日期:2012-04-11 18:40
一种为应用而构建经学习的上下文无关文法(CFG),其特征在于,包括: 为应用生成语义模型,该语义模型具有相关的语义限制; 根据该语义模型生成模板语法,使得该模板语法继承和该语义模型相关的语义限制;以及 通过用该模板语法分析训练语句构建经学习的CFG。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及上下文无关文法。本专利技术尤其涉及用于创建这种语法的创建系统。
技术介绍
基于语义的稳健的理解技术已经被广泛应用于人机对话系统中。事实上,在口语理解领域工作了多年之后,它已经成了最具有竞争力的技术之一。但是,该技术也有许多缺点。主要的缺点之一是要求有在特定领域语法的人工开发方面的专门技术。这被认为是众多开发者在建立对话系统过程中所面临的一个主要障碍。研究人员试图解决这一问题。例如,一些研究人员多年来一直在致力于尝试开发数据驱动的自动语法推理。但是,由于复杂目标语法的稀少数据的根本问题,所以在该类型系统方面的成功极为有限。一种语义上下文无关文法(CFG),如句法CFG,定义了从单独的单词到组成部分的合法组合,以及从组成部分到句子的组合。此外,语义CFG必须定义特定领域中的概念以及那些概念之间的关系。正是这种变化的额外维度使得需要为每个新的领域开发一种语法。把这些应用中的语义信息定义成语义模型也是很普遍的。语义模型常常用于很多不同的目的。例如,语义模型可以作为对语言启用应用的说明。换言之,一旦定义了语义模型,语法和应用逻辑开发可以根据语义模型同时进行。语义模型还在对话管理中扮演着重要的角色。另外,从语义模型不指定用来表达概念的语言表达式这一方面而言,语义模型和语言无关。因此,它不仅被用于语言启用应用,还被用于集成从多种模式来的输入,如鼠标点击事件。因此,在很多这样的应用中,语义模型必须被创建,并且在开发CFG之前必须已经存在。
技术实现思路
一种语法创建系统使用多个信息源来帮助创建语法。这产生了用相对较小的数据量半自动地推导出的语义语法。在一个实施例中,首先写出语义模型,再从该模型自动地推导出一种上下文无关文法(CFG)模板,使得继承了语义模型的语义限制(FG模拟还是呈现出结构的一般化)。在另一个实施例中,本专利技术采用语义注释使语法分析器的学习专注于感兴趣的地方。本专利技术可以进一步使用句法限制来减小语法开发期间的学习空间。此外,本专利技术可以高效的方式利用预先存在的库语法来开发语法,如使用拖放技术。附图说明图1是仅形成本专利技术的环境的一个实施例的个人计算机的框图。图2是展示了根据本专利技术的一个实施例说明上下文无关文法的创建的数据流程图。图2A展示了上下文无关文法的语法分析树。图2B详细显示了图2中的表达式注释块212的数据流程。图6A展示了根据本专利技术一实施例的具有树叶节点的语法分析树。图3-11是展示了根据本专利技术的一个实施例的创建系统的工作的屏幕画面。具体实施例方式本专利技术是用于帮助创建环境无关语义语法的创建系统。该系统可以在计算机设备上实现,并被实现成一种方法。图1仅是一个可以使用本专利技术的示范环境的展示实施例。当然,也可以使用其它的环境。图1展示了可以在其上实现本专利技术的适合的计算机系统环境100的例子。计算机系统环境100只是合适的计算机环境的一个例子,并且不试图对本专利技术的使用或功能范围提供任何限制。计算机环境100也不应该被解释成对于示范工作环境100中所展示的任何一个部件或者部件的组合有任何的依赖或要求。本专利技术也可以基于一些其他的通用或专用计算机系统环境或配置来工作。适于本专利技术所使用的一些熟知的计算机系统、环境和/或配置的例子包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、微处理器系统、基于微处理器的系统、机顶盒、可编程消费电子器件、网络PC、微型计算机、大型机、包含上述任一种系统或设备的分布式计算机环境以及类似。本专利技术可以在由计算机执行的计算机可执行指令(如程序模块)的大环境下进行描述。通常,程序模块包括进行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本专利技术还可以在分布式计算机环境中来实践,其中任务是由通过通信网络链接的远程处理设备来进行的。在分布式计算机环境中,程序模块可以位于包括记忆存储设备的本地或者远程计算机存储媒介中。参考图1,用于实现本专利技术的示范系统包括以计算机110的形式出现的通用计算机设备。计算机110的组件可以包括但不限于处理单元120、系统存储器130以及把包括由系统存储器的各系统组件耦接至处理单元120的系统总线121。系统总线121可以是若干类型总线结构中的任一种,包括存储总线或存储控制器、外围总线以及使用多种总线结构中的任一种的本地总线。作为例子而不是限制,这样的结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、扩展工业标准结构(EISA)总线、视频电子标准协会(VESA)本地总线以及外围组件互联总线(也被称为夹层总线)。计算机110一般包括多种计算机可读媒介。计算机可读媒介可以是计算机110能够访问的任何可用媒介,并且包括易失性和非易失性媒介,可拆卸和不可拆卸媒介。作为例子而不是限制,计算机可读媒介可以包括计算机存储媒介和通信媒介。计算机存储媒介包括以任何方法或技术实现的,用于存储注入计算机可读指令、数据结构、程序模块或其他数据等信息的易失性和非易失性、可拆卸和不可拆卸媒介。计算机存储媒介包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多用途光盘(DVD)或其他光盘存储、盒式磁带、磁带、磁盘存储或其他磁存储设备或可用于存储所需的信息并可由计算机110访问的任何其他媒介。通信媒介一般在如载波等调制数据信号或其他传输机制中把计算机可读指令、数据结构、程序模块或其他数据具体化,并包括了任何信息传递媒介。术语“调制数据信号”指的是让它的一个或多个特征以信号中的编码信息的方式来设置或改变。作为例子而不是限制,通信媒介包括有线网络或直接线缆连接等有线媒介,和声波、RF、红外以及其他无线媒介等无线媒介。计算机可读媒介的范围还应该包括上面的任意组合。系统存储器130包括易失性和/或非易失性存储器形式的计算机存储媒介,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包含有基本的例程,它们有助于在计算机110的单元之间传输信息(如在启动时),BIOS一般被存储在ROM 131中。RAM 132一般包含有处理单元120可以立即访问的和/或目前正在运行的数据和/或程序模块。作为例子而不是限制,图1展示了操作系统134、应用程序135、其他程序模块136和程序数据137。计算机110还可以包括其他可拆卸/不可拆卸的易失性/非易失性计算机存储媒介。仅作为例子,图1展示了从不可拆卸非易失性磁媒介读取或写入的硬盘驱动141、从可拆卸非易失性磁盘152读取或写入的磁盘驱动151以及从CDROM或其他光媒介等不可拆卸非易失性光盘读取或写入的光盘驱动155。可以被用在示范操作环境中的其他可拆卸/不可拆卸的易失性/非易失性计算机存储媒介包括但不限于盒式磁带、闪存卡、数字多用途光盘、数字视频磁带、固态RAM、固态ROM以及类似。硬盘驱动141一般通过诸如接口140之类的不可移动存储器接口被连接到系统总线121,而磁盘驱动151和光盘驱动155一般通过诸如接口150之类的可移动存储器接口被连接到系统总线121。上面所讨论的以及图1中所示的驱动器和它们的相关计算机存储媒介提供了对计算机可读指令、数据结构、程序模块以及计算机110的其他数据的存储。例如,在图1中,硬盘驱动器141被显本文档来自技高网...

【技术保护点】
1.一种为应用而构建经学习的上下文无关文法(CFG),其特征在于,包 括: 为应用生成语义模型,该语义模型具有相关的语义限制; 根据该语义模型生成模板语法,使得该模板语法继承和该语义模型相关的 语义限制;以及 通过用该模板语法分析训练语句构建经学习的CFG。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:Y·Y·王A·阿克洛
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1