当前位置: 首页 > 专利查询>微软公司专利>正文

在自然语言理解系统中用于位置的基于规则的语法和用于前终端的统计模型技术方案

技术编号:3046606 阅读:265 留言:0更新日期:2012-04-11 18:40
NLU系统包括大纲中的用于位置的基于规则的语法和用于前终端的统计模型。还提供了训练系统。

【技术实现步骤摘要】

本专利技术涉及语法创作。更具体地,本专利技术涉及使用基于规则的语法和统计模型的NLU系统的使用与创作。
技术介绍
为了促进支持语音的应用和服务的发展,目前正在开发基于语义的健壮的理解系统。在会话研究系统中广泛地使用这样的系统。但是,它们对于实现会话系统的常规开发者的使用不是特别实际。大范围而言,这样的实现有赖于专用领域语法的手工开发。这个任务耗时、易错,并且需要大量领域内专家。为了加快支持语音的应用和服务的发展,引入了基于实例的语法创作工具。该工具被称为SGStudio,并在2001年意大利Madonna D.Campiglio IEEE自动语音识别和理解研讨会上Y.Wang和A.Acero的GRAMMAR LEARNING FORSPOKEN LANGUAGE UNDERSTANDING(口语理解的语法学习)以及2002年Orlando(奥兰多),FL的ICASSP学报中Y.Wang和A.Acero的EVALUATION OFSPOKEN LANGUAGE GRAMMAR LEARNING IN ATIS DOMAIN(自动终端信息业务领域中口语语法学习的评估)中进一步讨论。该工具通过利用许多不同源的在先信息(prior information)来大大简化语法开发。它还允许没什么语言学知识的普通开发者,建立用于口语理解的语义语法。该系统用少量的数据促进相对高质量的语义语法的半自动生成。此外,该工具不仅显著减少了涉及开发语法的工作量,而且提高了跨不同领域的理解准确性。但是,NLU系统中纯基于规则的语法仍缺少健壮性并表现出脆弱性。概述NLU系统包括大纲中的用于位置的基于规则的语法和用于前终端的统计模型。还提供了训练系统。附图说明图1是能使用本专利技术的一个示例性环境的方框图。图2A是按照本专利技术一个实施例的模型-创作组件的一个实施例的方框图。图2B示出一实例大纲。图2C示出为实例大纲生成的实例规则组。图2D示出标注的语句的例子。图2E示出一实例解析树。图2F示出用于例子中单词的可能的前终端表。图2G是与计数和概率相关联的重写规则表。图3A是一方框图,更详细地示出语法创作组件。图3B是一流程图,示出在图3A中所示的语法创作组件的操作。图4示出了按照本专利技术另一实施例的模型-创作组件。图5示出列举的分段的示例。图6更详细地示出按照本专利技术一个实施例的统计模型。图7是简化的大纲的例子。图8是由在图7中的大纲生成的一组规则的例子。图9是标注的语句的例子。图10示出生成的规则。图11示出复合模型的状态图。图12示出描述训练技术的伪代码。图13是一方框图,示出使用按照本专利技术生成的模型的运行时系统。图14示出译码器格栅的例子。详细说明本专利技术涉及自然语言理解(NLU)系统。更具体地说,本专利技术处理包括基于规则的语法和统计模型的NLU系统。而且,提供训练系统。不过,在更详细地讨论本专利技术之前,将讨论能使用本专利技术的一个示例性环境。图1示出适合的计算系统环境100,在其上可实现本专利技术。计算环境100只是适合环境的一个例子,并且不是想要提出关于本专利技术的用途或功能范围的任何限制。不应该将计算环境100解释为对在示例性操作环境100中例示的组件的任何一个或组合有任何的依赖性或要求。本专利技术可与众多的其它通用或专用计算系统环境或配置一起运行。适合于使用本专利技术的众所周知的计算系统、环境和/或配置的例子包括,但不限于,个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括任何上述系统或设备的分布式计算环境等等。可在由计算机可执行指令,诸如由计算机执行的程序模块的一般环境中描述本专利技术。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本专利技术也可在分布式计算环境中实施,在所述分布式计算环境中由通过通信网络连接的远程处理设备执行任务。在分布式计算环境中,程序模块通常位于本地和远程两者包括存储器设备在内的计算机存储介质中。参考图1,用于实现本专利技术的示例性系统包括计算机110形式的通用计算设备。计算机110的组件包括,但不限于,处理单元120,系统存储器130,以及将包括系统存储器在内的各种系统组件连接至处理单元120的系统总线121。系统总线121可能是任何几种类型总线结构的任一种,包括存储器总线或存储控制器,外设总线,使用任何各种各样总线结构的局部总线。作为例子,但不限于,这样的结构包括工业标准结构(ISA)总线,微通道结构(MCA),增强ISA(EISA)总线,视频电子标准协会(VESA)局部总线,以及外设部件互连(PCI)总线,也被称为夹层(Mezzanine)总线。计算机110一般包括各种各样的计算机可读介质。计算机可读介质可以是能由计算机110访问的任何可用介质,并且包括易失性介质和非易失性介质,可移动和不可移动的介质。作为例子,但不限于,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的易失性和非易失性介质,可移动和不可移动的介质,用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。计算机存储介质包括,但不限于,RAM,ROM,EEPROM,闪存或者其它存储技术,CD-ROM,数据通用盘(DVD)或其它光盘存储器,磁带盒,磁带,磁盘存储器或者其它磁存储设备,或者能用于存储想要的信息以及能由计算机110访问的任何其它介质。通信介质一般包括在诸如载波或者其它传输机制调制的数据信号中的计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。术语″调制的数据信号″指的是以在信号中编码信息的方式设置或改变信号的一个或多个特征的信号。作为例子,不是限制,通信介质包括有线的介质,诸如有线网络或者直接线的连接,以及无线介质,诸如声音、RF、红外线和其它无线介质。任何上述各项的组合也应该包括在计算机可读介质的范围内。系统存储器130包括易失性/或非易失性存储器形式的计算机存储介质,诸如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS),包含(诸如在启动时)帮助在计算机110内的部件之间传送信息的基本例程,通常存储在ROM 131中。RAM 132一般包括数据和/或程序模块,可由处理单元120立即访问和/或当即操作。作为例子,但不限于,图1例示操作系统134,应用程序135,其它程序模块136和程序数据137。计算机110还可包括其它可移动的/不可移动的、易失性的/非易失性的计算机存储介质。只作为例子,图1例示了读写不可移动的、非易失性的磁介质的硬盘驱动器141,读写可移动的、非易失性磁盘152的磁盘驱动器151,以及读写可移动的、非易失性光盘156,诸如CD ROM或者其它光介质的光盘驱动器155。能在示例性操作环境中使用的其它可移动的/不可移动的、易失性的/非易失性的计算机存储介质包括,但不限于,磁带盒、闪存卡、数字通用盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141一般通过不可移动的存储器接口,诸如接口140连接至系统总线121,而磁盘驱动器151和光盘驱动器155一般通过可移动的存储器接口诸如接口150本文档来自技高网...

【技术保护点】
一自然语言理解(NLU)系统,用于将自然语言输入映射到大纲,包括:    一基于规则的语法组件,被配置为将自然语言输入的部分映射到从大纲导出的位置;    一统计模型组件,被配置为将自然语言输入的部分映射到从大纲导出的前终端;以及    一译码器,连接到基于规则的语法组件和统计模型组件。

【技术特征摘要】
US 2003-5-1 10/427,6041.一自然语言理解(NLU)系统,用于将自然语言输入映射到大纲,包括一基于规则的语法组件,被配置为将自然语言输入的部分映射到从大纲导出的位置;一统计模型组件,被配置为将自然语言输入的部分映射到从大纲导出的前终端;以及一译码器,连接到基于规则的语法组件和统计模型组件。2.如权利要求1所述的NLU系统,其特征在于,所述统计模型组件包括一统计模型,相应于从大纲导出的多个不同前终端的每一个。3.如权利要求1所述的NLU系统,其特征在于,所述统计模型组件包括一统计位置转移模型,模型化在位置之间的转移。4.如权利要求1所述的NLU系统,其特征在于,所述大纲是任务的表示,且其中,所述统计模型组件包括一统计任务模型,模型化任务的先前概率。5.如权利要求1所述的NLU系统,其特征在于,所述译码器被配置为,接收自然语言输入以及通过访问基于规则的语法组件和统计模型组件,将自然语言输入映射到大纲。6.如权利要求5所述的NLU系统,其特征在于,所述基于规则的语法组件包括一图形解析器,且其中,所述译码器被配置为,访问图形解析器以识别一个或多个非终端,所述非终端覆盖一个或多个自然语言输入的范围。7.如权利要求6所述的NLU系统,其特征在于,所述译码器被配置为,基于在自然语言输入中的一个或多个非终端和词语,使用统计模型组件执行动态规划译码。8.一创作组件,被配置为,在自然语言理解(NLU)系统中,产生用于将自然语言输入映射到从大纲导出的位置和前终端的组件,包括一模型训练器,被配置为,基于训练数据来训练基于语法的规则,以及训练用于将自然语言输入映射到从大纲导出的前终端的统计模型。9.如权利要求8所述的创作组件,其特征在于,所述模型训练器被配置为,训练相应于多个不同前终端的每一个的统计模型。10.如权利要求8所述的创作组件,其特征在于,所述模型训练器被配置为,训练模型化在位置之间的转移的统计位置转移模型。11.如权利要求8所述的创作组件,其特征在于,所述大纲是任务的表示,且其中,所述模型训练器被配置为,训练模型化任务的先前概率的统计任务模型。12.如权利要求8所述的创作组件,其特征在于,所述模型训练器被配置为,列举将位置和前终端与训练文本相关联的分段。13.如权利要求12所述的创作组件,其特征在于,所述模型训练器被配置为,使用与前终端相关联的文本作为用于统计模型的训练数据来训练统计模型。14.如权利要求13所述的创作组件,其特征在于,所述模型训练器被配置为,使用与每个前终端相关...

【专利技术属性】
技术研发人员:王野翊A埃西罗
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1