面向统计机器翻译的训练语料质量评价及选取方法技术

技术编号：8366769 阅读：376 留言：0更新日期：2013-02-28 05:18

本发明专利技术涉及一种面向统计机器翻译的训练语料质量评价及选取方法，步骤为：权重自动获取：采用小规模语料对权重自动获取模型进行训练，以得到特征的权重和分类临界值；句对质量评价：将上述权重和分类临界值与原始大规模平行语料一起做为输入，由句对质量评价线性模型对大规模平行语料进行分类，生成各个语料子集；高质量语料子集选取：在上述各个语料子集的基础上，考虑覆盖度的影响，选取高质量语料做为统计机器翻译系统的训练数据。本发明专利技术提出更丰富的句对质量评价特征，实现了特征权重的自动学习，当子集规模达到30%时性能可能够达到100%甚至更好；可以对任意输入的句对划分其所属的等级，可以为高质量语料数据选取等任务提供帮助。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种统计机器翻译技术，具体的说是一种。
技术介绍
统计机器翻译(Statistical Machine Translation, SMT)系统的训练需要大规模的双语平行语料的支持，语料的质量和数量会对机器翻译系统的性能带来很大的影响。一般来说，训练语料规模的增加有助于获得稳定的模型参数并提高SMT系统的翻译性能。但是语料规模越大，系统的执行代价就越高，训练和解码需要的时间也越长。另外，更大规模的语料也就意味着可能存在更多的噪声数据，会在一定程度上影响到系统训练的可靠性。姚树杰等人(2010)曾提出了一种基于句对质量和覆盖度的统计机器翻译训练语料选取的方法，他们通过综合考虑覆盖度和句对质量两方面的因素，从已有的平行语料中获取高质量小规模训练子集，以达到同使用全部训练语料相当的翻译性能。在姚树杰等人提出的模型中，有五个质量评价特征，各个特征的权重采用人工设定经验值的方法得到。人工的方法需要大量的实验支撑，耗时耗力，并且在特征数量增加的时候，变得非常不可用。
技术实现思路
针对基于句对质量和覆盖度的统计机器翻译技术中的质量评价特征采用人工设定经验值的方法得...

【技术保护点】
一种面向统计机器翻译的训练语料质量评价及选取方法，其特征在于包括以下步骤：权重自动获取：采用小规模语料对权重自动获取模型进行训练，以得到特征的权重和分类临界值；句对质量评价：将上述权重和分类临界值与原始大规模平行语料一起做为输入，由句对质量评价线性模型对大规模平行语料进行分类，生成各个语料子集；高质量语料子集选取：在上述各个语料子集的基础上，考虑覆盖度的影响，选取高质量语料做为统计机器翻译系统的训练数据。

【技术特征摘要】

【专利技术属性】
技术研发人员：朱靖波，张浩，肖桐，李强，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人