一种调序规则获取方法及装置制造方法及图纸

技术编号:8682710 阅读:185 留言:0更新日期:2013-05-09 02:42
本申请公开了一种调序规则获取方法及装置。一种调序规则获取方法包括:预先获得源语言A和目标语言B之间的平行语料(a0,b0);对(a0,b0)中的互译句对进行词对齐;根据词对齐结果,从互译句对中抽取双语短语并将子短语替换为变量,得到A到B的翻译规则集合;所述翻译规则两端的字符串都由单词和变量组成;将中翻译规则的目标语言单词,按照所述词对齐关系替换为源语言单词,得到A到A的调序规则集合。应用上述方案,可以利用已有的平行语料资源自动获取调序规则,并且在获取规则的过程中,仅涉及一般文本级别的处理操作,不需要利用到任何语言学方面的知识,从而大大降低获取调序规则的实现复杂度。

【技术实现步骤摘要】

本申请涉及计算机应用
,特别是涉及一种调序规则获取方法及装置
技术介绍
机器翻译(Machine Translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般应用于两种自然语言之间的整句或全文的翻译。统计机器翻译(Statistical Machine Translation, SMT)是机器翻译的一种,也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是:通过对一定数量的平行语料(bilingual corpus也称双语互译语料)进行统计分析,然后通过训练来构建统计翻译模型,进而使用此模型进行翻译。目前,机器翻译已经从早期基于词的翻译逐渐过渡到基于短语的翻译,并正在融合语义信息,以进一步提高翻译的智能性和精确性。在机器翻译技术中,调序是一种较为常用的技术。由于不同的语言所采用的句式结构是不同的,因此如果要得到质量较高的翻译结果,在单词或短语级别的直译结果基础上,应该对句子结构进行调整,以使翻译结果更符合自然的语言习惯。目前,常用的调序方案包括两种:一种是将调序作为翻译系统的子模型,即调序和翻译一起进行,这是目前大多数系统采用的方案。这种方案的时间和空间复杂度都比较高,为了满足实际系统的需求,必须限制调序的范围以降低复杂度,因此难以实现长距离的调序。另一种方案是预先对输入的源语言句子进行调序,然后调用翻译系统进行翻译。相对上一种方案而言,这种方案将调序的步骤独立处理,实现复杂度相对降低,可以进行大范围的调序,难点在于调序规则的获取。获取调序规则的一种方式是依靠语言学方面的专家,针对不同的语言,人工撰写调序规则,这种方式需要消耗大量的人力和时间成本;另一种方式是利用语法结构等信息,从大量语料中自动学习翻译规则,这种方式需要对语料进行语法分析,同样具有较高的复杂度,难以满足实际应用的需要。
技术实现思路
为解决上述技术问题,本申请实施例提供一种调序规则获取方法及装置,以降低获取调序规则的实现复杂度,技术方案如下:一种调序规则获取方法,包括:预先获得源语言A和目标语言B之间的平行语料(a0,bO);对(a0,bO)中的互译句对进行词对齐;根据词对齐结果,从互译句对中抽取双语短语并将子短语替换为变量,得到A到B的翻译规则集合<al,bl> ;所述翻译规则两端的字符串都由单词和变量组成;将<al,bl>中翻译规则的目标语言单词,按照所述词对齐关系替换为源语言单词,得到A到A的调序规则集合〈al, a2>。在本申请的一种实现方式中,所述调序规则获取方法还包括:统计<al,a2>中每条规则的出现频率,如果出现频率低于预设的阈值的规则,则从调序规则集合中删除该条规则。在本申请的一种实现方式中,所述调序规则获取方法还包括:对比<al,a2>中每条规则中调序前句子a I和调序后句子a2的内容,如果al和a2内容相同,则从调序规则集合中删除该条规则。在本申请的一种实现方式中,所述调序规则获取方法还包括:检查<al,a2>中每条规则中调序前句子al的开头和结尾,如果开头或结尾为变量,则从调序规则集合中删除该条规则。在本申请的一种实现方式中,所述调序规则获取方法还包括:检查<al,a2>中每条规则中调序前句子al的变量,如果包括变量相邻的内容,则从调序规则集合中删除该条规则。一种调序规则获取装置,包括:初始设置单元,用于预先获得源语言A和目标语言B之间的平行语料(a0,b0);词对齐单元,用于对(a0,bO)中的互译句对进行词对齐;翻译规则获得单元,用于根据词对齐结果,从互译句对中抽取双语短语并将子短语替换为变量,得到A到B的翻译规则集合<al,bl> ;所述翻译规则两端的字符串都由单词和变量组成;调序规则获得单元,用于将<al,bl>中翻译规则的目标语言单词,按照所述词对齐关系替换为源语言单词,得到A到A的调序规则集合<al,a2>。在本申请的一种实现方式中,所述调序规则获取装置还包括:第一过滤单元,用于统计<al,a2>中每条规则的出现频率,如果出现频率低于预设的阈值的规则,则从调序规则集合中删除该条规则。在本申请的一种实现方式中,所述调序规则获取装置还包括:第二过滤单元,用于对比<al,a2>中每条规则中调序前句子al和调序后句子a2的内容,如果al和a2内容相同,则从调序规则集合中删除该条规则。在本申请的一种实现方式中,所述调序规则获取装置还包括:第三过滤单元,用于检查<al,a2>中每条规则中调序前句子al的开头和结尾,如果开头或结尾为变量,则从调序规则集合中删除该条规则。在本申请的一种实现方式中,所述调序规则获取装置还包括:第四过滤单元,用于检查<al,a2>中每条规则中调序前句子al的变量,如果包括变量相邻的内容,则从调序规则集合中删除该条规则。应用本申请实施例所提供的技术方案,可以利用已有的平行语料资源来自动获取调序规则,并且在获取规则的过程中,仅涉及一般文本级别的处理操作,不需要利用到任何语言学方面的知识,从而大大降低获取调序规则的实现复杂度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本申请实施例调序规则获取方法的流程图;图2为本申请实施例的词对齐示意图;图3为本申请实施例调序规则获取方法的另一种流程图;图4为本申请实施例调序规则获取装置的结构示意图;图5为本申请实施例调序规则获取装置的另一种结构不意图。具体实施例方式首先对本申请实施例所提供的一种调序规则获取方法进行说明,该方法可以包括以下步骤:预先获得源语言A和目标语言B之间的平行语料(a0,bO);对(a0,bO)中的互译句对进行词对齐;根据词对齐结果,从互译句对中抽取双语短语并将子短语替换为变量,得到A到B的翻译规则集合<al,bl> ;所述翻译规则两端的字符串都由单词和变量组成;将<al,bl>中翻译规则的目标语言单词,按照所述词对齐关系替换为源语言单词,得到A到A的调序规则集合〈al, a2>。应用本申请实施例所提供的技术方案,可以利用已有的平行语料资源来自动获取调序规则,并且在获取规则的过程中,仅涉及一般文本级别的处理操作,不需要利用到任何语言学方面的知识,从而大大降低获取调序规则的实现复杂度。为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。图1所示为申请一种调序规则获取方法的流程图,该方法可以包括以下步骤:S101,预先获得源语目A和目标语目B之间的平行语料(aO, bO);首先从现有的语料库中获得源语言A和目标语言B之间的平行语料,其中本文档来自技高网
...

【技术保护点】
一种调序规则获取方法,其特征在于,包括:预先获得源语言A和目标语言B之间的平行语料(a0,b0);对(a0,b0)中的互译句对进行词对齐;根据词对齐结果,从互译句对中抽取双语短语并将子短语替换为变量,得到A到B的翻译规则集合;所述翻译规则两端的字符串都由单词和变量组成;将中翻译规则的目标语言单词,按照所述词对齐关系替换为源语言单词,得到A到A的调序规则集合。

【技术特征摘要】
1.一种调序规则获取方法,其特征在于,包括: 预先获得源语言A和目标语言B之间的平行语料(aO,bO); 对(aO,bO)中的互译句对进行词对齐; 根据词对齐结果,从互译句对中抽取双语短语并将子短语替换为变量,得到A到B的翻译规则集合<al,bl> ;所述翻译规则两端的字符串都由单词和变量组成; 将<al,bl>中翻译规则的目标语言单词,按照所述词对齐关系替换为源语言单词,得到A到A的调序规则集合<al,a2>。2.根据权利要求1所述的方法,其特征在于,还包括: 统计<al,a2>中每条规则的出现频率,如果出现频率低于预设的阈值的规则,则从调序规则集合中删除该条规则。3.根据权利要求1所述的方法,其特征在于,还包括: 对比<al,a2>中每条规则中调序前句子al和调序后句子a2的内容,如果al和a2内容相同,则从调序规则集合中删除该条规则。4.根据权利要求1所述的方法,其特征在于,还包括: 检查<al,a2>中每条规则中调序前句子al的开头和结尾,如果开头或结尾为变量,则从调序规则集合中删除该条规则。5.根据权利要求1所述的方法,其特征在于,还包括: 检查<al,a2>中每条规则中调序前句子al的变量,如果包括变量相邻的内容,则从调序规则集合中删除该条规则。6.一种调序规则获取装置,其特征在于,包括: 初始设置单元,用于预先获得源...

【专利技术属性】
技术研发人员:何中军吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1