通用的汉语两级混合模板口语对话语言生成方法技术

技术编号：3048458 阅读：221 留言：0更新日期：2012-04-11 18:40

一种通用的汉语两级混合模板口语对话语言生成方法，其特征在于，汉语的句子被分解为两个层面：句子和短语；每个层面分别使用不同的模板来生成，即，根据短语模板生成短语，再把短语模板根据句子模板的要求组合成句子，从而生成句子。（*该技术在2023年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能的自然语言生成技术，特别是涉及到根据言语的内部表达式生成具有口语特性的汉语语言。
技术介绍
口语语言生成方法是指这样的计算机软件系统它是面向任务的对话系统的一个组成部分，它可以根据言语的内部表达式生成适合口语对话的自然语言。概括起来，现有的自然语言生成方法可以归为四类一、封装文本的方法一个封装文本是一个预先定义好的串，它是在系统设计的时候就写好了的。系统储存了一个串集合，以及每个串的触发条件。在受到触发时会显示其中的一个。这样的串是静态的，不加以改变地呈现给用户。二、基于模板的方法一个模板是一个预先定义好的框架，在运行时由用户或者应用程序用信息来填充。模板由两个主要部分组成模板槽和模板规则。模板槽是用户可以赋值的参数或者变量。模板规则表达了如何实现一个表层要素。三、基于短语的方法一个短语是一个在自然语言中构造子句或者句子的词或者词组。基于短语的方法定义了一个一般化的模板集合，这些模板表达自然语言中的各种短语，如名词短语(NP)动词短语(VP)等。这些一般化的模板(短语)通过一个产生规则集相互关联起来。一个产生规则就是一个约束，规定了如何用一个词或者短语替代另一个短语。该方法是基于短语结构文法的。短语结构文法描述了词组合成短语和短语组合成句子的方法。四、基于特征的方法特征表达的是自然语言的特性。每个特征都有有限的可能值。如，数量特征可以是单数或者复数。一个特征的值描述了一个词的形式，子句或者句子结构。如，一个句子的主语是单数名词，则主语本身不会有屈折变化，而动词却要变化。在基于特征的语言实现系统中，文法的每一个特性都由一个特征来表达...

【技术保护点】

【技术特征摘要】
1.一种通用的汉语两级混合模板口语对话语言生成方法，其特征在于，汉语的句子被分解为两个层面句子和短语；每个层面分别使用不同的模板来生成，即，根据短语模板生成短语，再把短语模板根据句子模板的要求组合成句子，从而生成句子。2.如权利要求1所述的口语对话语言生成方法，其特征在于，算法的输入数据结构是CSL言语行为表达式，并包括以下部分一、设计短语模板，用来生成结构不变的短语；二、设计表达基本语序的句子模板；三、以短语为组件，填充句子模板，生成句子；四、设计句子模板变换规则，用来生成不同的句型。3.如权利要求2所述的口语对话语言生成方法，其特征在于，所述的模板，全部来源于真实语料库，模板由若干个语义槽组成，每个槽都是使用()括起来的一个语义角色；它由模板名字和几个槽组成，每个槽又由槽的语义角色名称和实现该语义角色的短语模板名字组成；主动词除外，它是由动词的符号和动词组成；模板与语义密切相关，符合汉语的特点。4.如权利要求3所述的口语对话语言生成方法，其特征在于，所述的模板，包括静态模板和封装文本两类。5.如权利要求4所述的口语对话语言生成方法，其特征在于，所述的静态模板，没有必要使用句子模板加短语模板的方式生成的句子，其主体不参加逻辑推理，句子涉及到的内容简单，使用频率很低。6.如权利要求4所述的口语对话语言生成方法，其特征在于，所述的封装文本，是指对话中有些句子不可以分解，句子的意义不是其组成部分的意义和结构的函数；这部分句子一般是交际功能语言，如问候，寒暄，它们不符合弗雷格(Frege)组合原则，不涉及到实体与谓词，即直接使用封装文本定义，需要时直接输出。7.如权利要求2或3所述的口语对话语言生成方法，其特征在于，所述的短语模板，是基本模板，是固定不变的，具有一定的语义含义，每个短语单独设立模板，设立的方法是实体作为槽，其余字词均是镶嵌入模板的词。8.如权利要求2或3所述的口语对话语言生成方法，其特征在于，所述的句子模板，是把基本句子以实体为中心划分成短语，每个短语使用一个名称定义，句子的主动词除外；其每个槽同时标示出了语义角色。9.如权利要求2所述的口语对话语言生成方法，其特征在于，算法的步骤如下第一步、模板选择根据句子谓词的名称访问模板映射表，并判断访问的模板的类型，如果需要访问的模板是封装文本，则调用该模板，得到返回数据，输出，返回，算法停止；否则取得模板；第二步、确定需要生成的句子成分在得到了句子模板以后，就得到了句子中代表一定语义含义的需要被填充的槽；第三步、指派每个槽的填充值在确定了需要生成的句子成分以后，就是在知道了哪些槽需要填充以后，因为谓词表达式中的语义项与模板中的语义项是对应的，只需要一一对应上填入就可以了；第四步、句子成分的预生成这个阶段的任务可以分为两类，一类是使用另外的生成过程，生成短语以代替本句模板中的语义槽，第二类是依据本句模板的槽填充；首先，在第一类中涉及到的成分有摹状词、合称和代词；摹状词的生成同样是需要调用模板，根据摹状词的形式表达式的谓词符号访问模板映射表，得到模板，然后依据摹状词的模板变换规则，生成摹状词；合称短语的生成是使用专用的模板，将每个词串联输出；代词的生成就是依据代词的使用条件，...

【专利技术属性】
技术研发人员：杜利民，于水源，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人