通用的汉语两级混合模板口语对话语言生成方法技术

技术编号:3048458 阅读:221 留言:0更新日期:2012-04-11 18:40
一种通用的汉语两级混合模板口语对话语言生成方法,其特征在于,汉语的句子被分解为两个层面:句子和短语;每个层面分别使用不同的模板来生成,即,根据短语模板生成短语,再把短语模板根据句子模板的要求组合成句子,从而生成句子。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及人工智能的自然语言生成技术,特别是涉及到根据言语的内部表达式生成具有口语特性的汉语语言。
技术介绍
口语语言生成方法是指这样的计算机软件系统它是面向任务的对话系统的一个组成部分,它可以根据言语的内部表达式生成适合口语对话的自然语言。概括起来,现有的自然语言生成方法可以归为四类一、封装文本的方法一个封装文本是一个预先定义好的串,它是在系统设计的时候就写好了的。系统储存了一个串集合,以及每个串的触发条件。在受到触发时会显示其中的一个。这样的串是静态的,不加以改变地呈现给用户。二、基于模板的方法一个模板是一个预先定义好的框架,在运行时由用户或者应用程序用信息来填充。模板由两个主要部分组成模板槽和模板规则。模板槽是用户可以赋值的参数或者变量。模板规则表达了如何实现一个表层要素。三、基于短语的方法一个短语是一个在自然语言中构造子句或者句子的词或者词组。基于短语的方法定义了一个一般化的模板集合,这些模板表达自然语言中的各种短语,如名词短语(NP)动词短语(VP)等。这些一般化的模板(短语)通过一个产生规则集相互关联起来。一个产生规则就是一个约束,规定了如何用一个词或者短语替代另一个短语。该方法是基于短语结构文法的。短语结构文法描述了词组合成短语和短语组合成句子的方法。四、基于特征的方法特征表达的是自然语言的特性。每个特征都有有限的可能值。如,数量特征可以是单数或者复数。一个特征的值描述了一个词的形式,子句或者句子结构。如,一个句子的主语是单数名词,则主语本身不会有屈折变化,而动词却要变化。在基于特征的语言实现系统中,文法的每一个特性都由一个特征来表达。如,时态,数,和人称。生成就是逐个搜集对于每一个输入部分都是适合的特征集。从句子生成的角度看,可以把以上四类方法分为两类基于模板的方法(包括封装文本的方法和基于模板的方法)和基于生成的方法(包括基于短语的方法和基于特征的方法)。因为前者是基于对预制模板的填充,而后者是基于语言学规则的生成。从生成所使用的方法上讲,它们的差别在于非语言学生成(前者)和语言学生成(后者)。非语言学的方法只涉及句子的表层,而语言学的方法是利用句子的语言学性质。语言学的方法利用句子的句法特性等,如时态,数,主谓语一致性等特性,生成的句子虽然比较灵活,但因为汉语不是屈折语言,缺少形式变化和句法的表层约束,所以语言学的方法显然不适合汉语的生成任务。而非语言学方法生成的句子缺少灵活性,很难适合口语的特性,模板的维护任务重。
技术实现思路
本专利技术的目的是提供一种,其采用言语行为表达式,有很强的表达能力,更加符合对话语境,实现了算法与任务无关,容易移植。为达到上述目的,本专利技术的技术解决方案是提供一种,其汉语的句子被分解为两个层面句子和短语;每个层面分别使用不同的模板来生成,即,根据短语模板生成短语,再把短语模板根据句子模板的要求组合成句子,从而生成句子。所述的口语对话语言生成方法,其包括以下步骤一、设计短语模板,用来生成结构不变的短语;二、设计表达基本语序的句子模板;三、以短语为组件,填充句子模板,生成句子;四、设计句子模板变换规则,用来生成不同的句型。所述的口语对话语言生成方法,其所述的模板,全部来源于真实语料库,模板由若干个语义槽组成,每个槽都是使用( )括起来的一个语义角色;它由模板名字和几个槽组成,每个槽又由槽的语义角色名称和实现该语义角色的短语模板名字组成;主动词除外,它是由动词的符号和动词组成;模板与语义密切相关,符合汉语的特点。所述的口语对话语言生成方法,其所述的模板,包括静态模板和封装文本两类。所述的口语对话语言生成方法,其所述的静态模板,没有必要使用句子模板加短语模板的方式生成的句子,其主体不参加逻辑推理,句子涉及到的内容简单,使用频率很低。所述的口语对话语言生成方法,其所述的封装文本,是指对话中有些句子不可以分解,句子的意义不是其组成部分的意义和结构的函数;这部分句子一般是交际功能语言,如问候,寒暄,它们不符合弗雷格(Frege)组合原则,不涉及到实体与谓词,即直接使用封装文本定义,需要时直接输出。所述的口语对话语言生成方法,其所述的短语模板,是基本模板,是固定不变的,具有一定的语义含义,每个短语单独设立模板,设立的方法是实体作为槽,其余字词均是镶嵌入模板的词。所述的口语对话语言生成方法,其所述的句子模板,是把基本句子以实体为中心划分成短语,每个短语使用一个名称定义,句子的主动词除外;其每个槽同时标示出了语义角色。所述的口语对话语言生成方法,其算法的输入数据结构是CSL言语行为表达式。所述的口语对话语言生成方法,其算法的步骤如下第一步、模板选择根据句子谓词的名称访问模板映射表,并判断访问的模板的类型,如果需要访问的模板是封装文本,则调用该模板,得到返回数据,输出,返回,算法停止;否则取得模板;第二步、确定需要生成的句子成分在得到了句子模板以后,就得到了句子中代表一定语义含义的需要被填充的槽;第三步、指派每个槽的填充值在确定了需要生成的句子成分以后,就是在知道了哪些槽需要填充以后,因为谓词表达式中的语义项与模板中的语义项是对应的,只需要一一对应上填入就可以了;第四步、句子成分的预生成这个阶段的任务可以分为两类,一类是使用另外的生成过程,生成短语以代替本句模板中的语义槽,第二类是依据本句模板的槽填充;首先,在第一类中涉及到的成分有摹状词、合称和代词;摹状词的生成同样是需要调用模板,根据摹状词的形式表达式的谓词符号访问模板映射表,得到模板,然后依据摹状词的模板变换规则,生成摹状词;合称短语的生成是使用专用的模板,将每个词串联输出;代词的生成就是依据代词的使用条件,在满足条件的情况下,使用代词“它”替代主体词;第五步、短语生成第四步中第二类句子成分就是本句的模板中的语义槽,将每个指派的信息,填充相应的语义短语模板,将填充的结果返回给本句模板;第六步、各类句型的生成根据句型映射表,依据言语行为表达式的C_S_L三者的关系选择所要生成的句子的类型,包括a、疑问句的生成(1)选择问选择疑问项对应的槽依次使用每个选择项内容重复生成,生成的结果之间以“还是”串接,得到最后输出结果;(2)是非问若疑问点在谓词上,则在句末串接“吗?”;若疑问点不在谓词上,则在疑问项前加“是”,在句末串接“吗?”,得到最后输出结果;(3)特指问根据谓词公式中疑问点的位置,访问谓词的定义,得到该变元位置的集合定义中的疑问词;根据谓词的名称访问基本句模板映射表,得到对应的基本模板;模板的其他部分按照基本句子的生成过程生成,疑问点对应的槽依使用a)中得到的疑问词填充,最后输出结果;b、否定句的生成对于否定项对应的短语中的第一个词是体词的,生成的否定句是在该短语前加“不是”,否则加“不”;对于否定点在谓词的,在生成的基本句子中的主动词前直接加否定词“不”;C、省略句的生成原谓词有对应的模板可以用于生成,现在部分成分省略以后的命题,仍然采用原模板生成,生成的方式与没有省略时是一样的,只是省略项对应的槽不予填充,最后输出结果的时候,将省略项对应的槽的前后项短接。所述的口语对话语言生成方法,其所述的第一步中,所述访问模板映射表的入口就是关系谓词符号。所述的口语对话语言生成方法,其所述的第二步中,有的时候,不是所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用的汉语两级混合模板口语对话语言生成方法,其特征在于,汉语的句子被分解为两个层面句子和短语;每个层面分别使用不同的模板来生成,即,根据短语模板生成短语,再把短语模板根据句子模板的要求组合成句子,从而生成句子。2.如权利要求1所述的口语对话语言生成方法,其特征在于,算法的输入数据结构是CSL言语行为表达式,并包括以下部分一、设计短语模板,用来生成结构不变的短语;二、设计表达基本语序的句子模板;三、以短语为组件,填充句子模板,生成句子;四、设计句子模板变换规则,用来生成不同的句型。3.如权利要求2所述的口语对话语言生成方法,其特征在于,所述的模板,全部来源于真实语料库,模板由若干个语义槽组成,每个槽都是使用()括起来的一个语义角色;它由模板名字和几个槽组成,每个槽又由槽的语义角色名称和实现该语义角色的短语模板名字组成;主动词除外,它是由动词的符号和动词组成;模板与语义密切相关,符合汉语的特点。4.如权利要求3所述的口语对话语言生成方法,其特征在于,所述的模板,包括静态模板和封装文本两类。5.如权利要求4所述的口语对话语言生成方法,其特征在于,所述的静态模板,没有必要使用句子模板加短语模板的方式生成的句子,其主体不参加逻辑推理,句子涉及到的内容简单,使用频率很低。6.如权利要求4所述的口语对话语言生成方法,其特征在于,所述的封装文本,是指对话中有些句子不可以分解,句子的意义不是其组成部分的意义和结构的函数;这部分句子一般是交际功能语言,如问候,寒暄,它们不符合弗雷格(Frege)组合原则,不涉及到实体与谓词,即直接使用封装文本定义,需要时直接输出。7.如权利要求2或3所述的口语对话语言生成方法,其特征在于,所述的短语模板,是基本模板,是固定不变的,具有一定的语义含义,每个短语单独设立模板,设立的方法是实体作为槽,其余字词均是镶嵌入模板的词。8.如权利要求2或3所述的口语对话语言生成方法,其特征在于,所述的句子模板,是把基本句子以实体为中心划分成短语,每个短语使用一个名称定义,句子的主动词除外;其每个槽同时标示出了语义角色。9.如权利要求2所述的口语对话语言生成方法,其特征在于,算法的步骤如下第一步、模板选择根据句子谓词的名称访问模板映射表,并判断访问的模板的类型,如果需要访问的模板是封装文本,则调用该模板,得到返回数据,输出,返回,算法停止;否则取得模板;第二步、确定需要生成的句子成分在得到了句子模板以后,就得到了句子中代表一定语义含义的需要被填充的槽;第三步、指派每个槽的填充值在确定了需要生成的句子成分以后,就是在知道了哪些槽需要填充以后,因为谓词表达式中的语义项与模板中的语义项是对应的,只需要一一对应上填入就可以了;第四步、句子成分的预生成这个阶段的任务可以分为两类,一类是使用另外的生成过程,生成短语以代替本句模板中的语义槽,第二类是依据本句模板的槽填充;首先,在第一类中涉及到的成分有摹状词、合称和代词;摹状词的生成同样是需要调用模板,根据摹状词的形式表达式的谓词符号访问模板映射表,得到模板,然后依据摹状词的模板变换规则,生成摹状词;合称短语的生成是使用专用的模板,将每个词串联输出;代词的生成就是依据代词的使用条件,...

【专利技术属性】
技术研发人员:杜利民于水源
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利