基于统计机器翻译的语言生成方法技术

技术编号：16919223 阅读：40 留言：0更新日期：2017-12-31 14:49

本发明专利技术公开了一种基于统计机器翻译的语言生成方法，将源端树形结构语义表达式转化为自然语言；将预处理后的语料作为基于层次短语的统计机器翻译的源端语言；利用基于层次短语的统计机器翻译解码器生成n‑best翻译结果；再对上一步生成的n‑best翻译结果进行过滤，得到与源端输入句子答案类型相同的翻译结果；在评测阶段，将中文和英文的参照语句从原来一个增加到了三个，使评测值更能反映真实地翻译效果，具有良好的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
基于统计机器翻译的语言生成方法
本专利技术语言生成
，具体涉及一种基于统计机器翻译的语言生成方法。
技术介绍
语言生成的任务就是通过对语义表达式的分析，然后将它转化为自然语言。许多语言生成的早期方法都是基于规则的，该方法一般只关注表面实现，即调整次序和转变词语，接着开始出现许多基于语料概率的方法，其中，很多方法需要语义表达式是特殊的形式，比如树形结构表达式。许多早期的语言生成不使用概率性的方法。早期的有使用人工标注规则将扩展谓词逻辑表达式生成自然语言的方法，接着出现了语义驱动的方法，该方法是基于逻辑编程语言写的规则，进而发展到从有歧义的逻辑表达式中生成有多种释义自然语言的系统。然后概率模型被提了出来，该模型是从充满树形结构的语义表达式中生成自然语言。目前，语言生成被看作是一个统计机器翻译的任务，即将语义表达式看作是机器翻译的源语言，自然语言看作是目标语言。统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型，并在此统计模型基础上，定义要估计的模型参数，并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型，采用最大似然准则进行无监督训练，而...
基于统计机器翻译的语言生成方法

【技术保护点】
基于统计机器翻译的语言生成方法，其特征在于：包括以下步骤，步骤(A)，语料预处理，将源端树形结构的语义表达式转化为自然语言；步骤(B)，预处理的语料进行词对齐，使用多种对齐方式，形成训练数据；步骤(C)，对训练数据进行短语抽取和短语特征提取；步骤(D)，调节特征权重，得到最优的特征权重；步骤(E)，根据最优的特征权重，采用基于层次短语的统计机器翻译解码器，得到训练数据的n‑best翻译结果；步骤(F)，对n‑best翻译结果进行过滤，得到过滤后的翻译结果；步骤(G)，对过滤后的翻译结果进行多参照评测、人工评测，完成语言生成。

【技术特征摘要】
1.基于统计机器翻译的语言生成方法，其特征在于：包括以下步骤，步骤(A)，语料预处理，将源端树形结构的语义表达式转化为自然语言；步骤(B)，预处理的语料进行词对齐，使用多种对齐方式，形成训练数据；步骤(C)，对训练数据进行短语抽取和短语特征提取；步骤(D)，调节特征权重，得到最优的特征权重；步骤(E)，根据最优的特征权重，采用基于层次短语的统计机器翻译解码器，得到训练数据的n-best翻译结果；步骤(F)，对n-best翻译结果进行过滤，得到过滤后的翻译结果；步骤(G)，对过滤后的翻译结果进行多参照评测、人工评测，完成语言生成。2.根据权利要求1所述的基于统计机器翻译的语言生成方法，其特征在于：步骤(B)，预处理的语料进行词对齐，使用多种对齐方式，形成训练数据，包括以下步骤，(B1)，在预处理的语料不变的情况下，分别使用源端到目标端对齐、目标端到源端对齐和对使用源端到目标端对齐、目标...

【专利技术属性】
技术研发人员：李军辉，柴强，孔芳，周国栋，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人