一种译文检查方法及其系统技术方案

技术编号:11300552 阅读:55 留言:0更新日期:2015-04-15 18:02
本发明专利技术提供一种译文检查方法及其系统,包括初始化处理和检查判定处理。所述初始化处理,基于一批语料来训练二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打分提供依据。所述检查判定处理,通过所述检查评分模型给译文打分,将译文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错误”,否则判定为“正确”。上述技术方案有效避免了现有技术中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照,同时不能判断正确与否,只能判断评测译文的好差程度的问题。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种译文检查方法及其系统,包括初始化处理和检查判定处理。所述初始化处理,基于一批语料来训练二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打分提供依据。所述检查判定处理,通过所述检查评分模型给译文打分,将译文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错误”,否则判定为“正确”。上述技术方案有效避免了现有技术中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照,同时不能判断正确与否,只能判断评测译文的好差程度的问题。【专利说明】一种译文检查方法及其系统
本专利技术涉及一种译文检查方法及其系统,具体是一种基于二元语法模型的译文检 查方法及其系统,属于电数字数据处理方法

技术介绍
近年来,机器翻译(Machine Translation)的应用越来越广泛,而且对机器翻译译 文的质量要求越来越高。在翻译领域内,即使最好的翻译人员也很难达到翻译界所要求的 最高标准"信、达、雅",因此机器翻译评价成为一个重要而困难的课题。 由于要对译文质量评价至少要懂得两种语言,译文质量评价成为一项难度很大的 智力活动,因此对机器翻译的译文质量的评价通常由专家来进行,而且价格成本不菲,评价 过程也非常耗时而且不可重用。 一般机器译文的评价出发点为"有多好"和"哪个更好",如果在人工对译文评价之 前,将译文中"不正确"或"错误"的译文筛选出来,将大大缩减人工评价译文的成本和时间。 在翻译需求中,有一类是针对领域短语的翻译,由于领域短语包含的文字不多且 通常具备显著的领域特征,因此通过一定量的领域语料,能够从不同角度发现其规律,并建 立模型。 现有技术中IBM提出的基于N元匹配的BLEU机器翻译评测方法需要不同的双语 专家对原文进行翻译得到参考译文,然后计算机器译文与这多个参考译文的字符串相似 度,从而实现对机器翻译译文质量的评测。该方法进行评测译文时,需要提供人工翻译的高 质量译文作为参照,获取大量高质量译文的成本很高;同时在很大程度上依赖于双语专家, 其成本仍然很大;另外该方法只能评测译文有"多好",而不能判断翻译译文是否"错误"。 现有技术中还公开了一种机器翻译自纠错的方法,首先定义翻译错误类别,将翻 译错误类别定义为正确、一般错误、次序错误、集外词错误、其他错误五类;训练错误分类 器,对翻译错误进行分类;将翻译映射到源语言端并构建复述词图网络;最后得到词图解 码并加以校正。该方法首先通过抽取与具体语言相关的字、词、词性标注、句法、语法、语义 特征建立语料库,构造训练模型,需要大量语料的准备有很大的难度;其次该方法是基于动 态概率潜变量模型的算法也需要大规模的语料准备数据;另外,该方法只能检查所定义的 翻译错误类别,如果译文的错误类别不属于所定义的翻译错误类别,则不能判断翻译译文 是否"错误"。
技术实现思路
本专利技术所要解决的技术问题是现有技术中译文检测方法在很大程度上依赖于双 语专家,同时不能判断正确与否,只能判断评测译文的好差程度,从而提供一种通过学习语 料,训练出二元语法模型,通过该模型自动将相关的海量译文中"不正确"或"错误"的短语 译文过滤掉的译文检查方法。 为解决上述技术问题,本专利技术是通过以下技术方案实现的: 一种译文检查方法,包括初始化处理和检查评定处理, 所述初始化处理,基于一批语料,通过统计语料二元切分条目的概率信息,来获得 二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打分提供依据; 所述检查评定处理,通过所述检查评分模型给译文打分,将译文得分与预设判定 阈值比较,将得分小于所述预设判定阈值的译文判定为"错误",否则判定为"正确"。 所述初始化处理的步骤如下: 获取文本集D,d e D,其中d表示所述文本集D的一个文本; 将所述文本集D中的每一个文本d分句后获得的句子进行二元切分,并将每个二 元切分条目(W iWw)存入列表L,其中,i=l, 2,…,η-1,η为一个句子所包含的字符个数,Wi 表示句子中的一个字符,wi+1表示字符K后的一个字符; 将所述列表L中的每个二元切分条目存入集合Q,根据所述集合Q计算以Wi开始 时W j出现的概率fp (Wi,Wj),其中Wi、Wj分别表示二元切分条目中的第一字符和第二字符; 将计算得到的所有fp(Wi,Wj)保存为所述检查评分模型。 所述检查判定处理的步骤如下: 获取短语的译文; 对所述译文做二元切分,获得所述译文的二元切分条目; 根据所述检查评分模型对所述译文进行打分评估; 根据所述译文的评分判定所述译文是否错误。 所述将所述文本集D中的每一个文本d分句后获得的句子进行二元切分,并将每 个二元切分条目( Wiwi+1)存入列表L的处理包括如下步骤: 对所述集合D中的每一个文本d分句,得到m个句子S1, s2,…,S111,其中m为非负整 数; 对所述每一个句子Si做二元切分,通过Si得到k个二元切分条目(W 1W2) (W2W3)… (wkwk+1),每一个句子S i包含的字符的个数为k+Ι个; 将每个二元切分条目存入列表L。 所述计算以Wi开始时Wj出现的概率fp (Wi, Wj)的方法为: fp (Wi, Wj) =ft (Wi, Wj) /ft (Wi, *) 其中,ft (Wi,Wj)表示以Wi开始且Wj结尾的二元切分条目在列表L中的出现次数, ft (Wi, *)表示以Wi开始的二元切分条目在列表L中的出现次数。 所述计算以Wi开始时Wj出现的概率fp (Wi, Wj)的方法为: 从列表L中得到所有以Wi开始的二元切分条目,将二元切分条目中的第二个字符 Wj加入字符串S ; 将所述字符串S中的每个字符存入集合T ; 统计所述字符串S的长度n,对于集合T中的每一个字符%,统计所述字符%在字 符串S中出现的次数m ; 则以Wi开始时Wj出现的概率fp (Wi, Wj)为 fp(Wi,Wj)=m/n 其中,m,η的初始值为零。 所述对所述译文做二元切分的方法与所述初始化处理的方法相同。 所述二元切分采用CJK分词器进行二元切分。 所述对所述译文进行打分评估的方法为: Score 译=Min (Scorei, i=l,2,…,n_l} 其中,Scorei是一条二元切分条目的评分,ScoreiZfp (Wi, Wj),fp (Wi, Wj)为译文中的 二元切分条目(WiWj)在模型中对应的值。 所述对所述译文进行打分评估的方法为: Score 译=avg (Scorei, i=l,2,…,n_l} 其中,Scorei是一条二元切分条目的评分,ScoreiZf p (Wi, Wj),fp (Wi, Wj)为译文中的 二元切分条目(WiWj)在模型中对应的值。 所述对所述译文进行打分评估的方法为: Score ^ = Π Scorei 其中,i=l, 2,…,n-1,Scorei 是一条二元切分条目的评分,Scorerfp^,Wj), fp (W本文档来自技高网
...

【技术保护点】
一种译文检查方法,包括初始化处理和检查评定处理,其特征在于:所述初始化处理,基于一批语料,通过统计所述语料二元切分条目的概率信息,来获得二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打分提供依据;所述检查评定处理,通过所述检查评分模型给译文打分,将译文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错误”,否则判定为“正确”。

【技术特征摘要】

【专利技术属性】
技术研发人员:叶茂王元龙金立峰汤帜徐剑波
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1