一种汉英词语自动对齐方法技术

技术编号:4199909 阅读:296 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种汉英词语自动对齐方法,首先对原始汉、英双语句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点信息,对双语词对之间进行局部定位,生成词对齐文件。本发明专利技术解决了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐效率的问题,本发明专利技术根据相关特征将汉英双语句子分割,完成不同粒度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句子进行很好的词语对齐的弊端。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,特别涉及统计机器翻译、跨语言 信息检索和双语词语自动对齐的方法。
技术介绍
随着计算机网络和通信技术的迅猛发展、普及和应用,国际交流 曰益频繁,信息量急剧增加,语言的障碍也显得越来越严重,通过计 算机来实现不同语言文本间的相互翻译,利用计算机高效率的信息处 理能力来突破不同语种之间的语言障碍,成为全人类面临的共同问 题,而机器翻译便是解决这个问题的强有力手段之一。机器翻译技术 在经济发展和社会生活中日趋重要,对加速和扩展世界范围内的信息 传播具有深远意义。五十多年来,机器翻译的研究大大加深了人们对于语言、知识 和智能等问题的了解,促进了相关学科的迅速发展。目前的机器翻译 方法又以统计方法占据主导地位,而词对齐技术几乎是所有统计机器 翻译方法的基础,词对齐的好坏可以说从某种程度上决定了最终的翻 译质量好坏,因为不论是基于短语的统计机器翻译系统还是基于句法 的统计机器翻译系统,甚至基于实例的翻译系统,都需要通过词对齐 来进行后续的抽取短语、结构和规则的泛化等。词对齐效果如果很差, 所有基于词对齐进行的后续操作,都将很不可靠,并且也会导致错误 的蔓延,所以,词对齐是很重要的基础性工作。很多学者都在研究词对齐的方法,并提出了很多比较有效的方法,但目前公开可用的很流行的方法仍然是012八++工具包,GIZA++几乎是目前所有统计机器翻译系统词对齐的生成工具。虽然GIZA++ 有着其不可比拟的优越性和鲁棒性,只要有双语训练语料,无论是什么语种,012人++都可以得到比较满意的效果。尽管如此,我们也应6该意识到,012八++工具包的词对齐是在整个句子中寻求一个全局规划的最优词对齐。如果句子很长,就会导致规划路径太多,复杂度太 高而很难生成很好的结果,即便是不长的句子,我们也应该意识到没 有必要对整个句子进行规划,而应该限定词对齐在一个比较可靠的小 范围去搜索,这样就能在保证一定精度的情况下大大縮短搜索时间, 提高效率。
技术实现思路
针对现有技术的问题,本专利技术的目的是对现有的词对齐工具进行 改善提高,提出一种基于多粒度的词对齐方法,希望利用更多的特征 来寻求更好的词对齐结果,获得高精度的词对齐,为此本专利技术提供一 种新的汉英词语自动对齐方法。为了实现所述的目的,本专利技术提供,其自动对齐技术方案的步骤包括步骤l:对原始汉、英双语句提取划分语块的特征信息; 步骤2:将特征信息划分,生成多层不同粒度的语块划分锚点信'K、 5步骤3:利用多层不同粒度语块的锚点信息对双语词对之间进行局部定位,生成词对齐文件。根据本专利技术的实施例,步骤1所述提取特征信息的步骤包括 步骤11:将原始汉、英双语句对作为第一层粒度下的汉、英双语语块;步骤12:利用612八++工具包对汉、英双语语块进行训练,得到 第一层粒度下的词对齐文件;步骤13:同时利用GIZA+十对汉、英双语语块进行训练生成双向 词汇词典;步骤14:利用双向词汇词典,以及在第一层粒度下的词对齐文 件上抽取的短语词典作为第二层粒度的双语语块打分特征;步骤15:直至在上层粒度下的词对齐文件上抽取的短语词典作为下层粒度的双语语块打分特征。根据本专利技术的实施例,步骤2所述特征信息划分步骤包括步骤21:根据汉、英语标点符号对第一层粒度下的汉、英双语 语块对进行分割;步骤22:根据汉、英双语的标点符号作为划分锚点对将原始汉、 英双语语块句子划分成单语语块;步骤23:利用第一层粒度产生的双向词汇词典和短语词典,再 加上长度惩罚作为特征对含有这些单语语块的双语语块进行打分匹 配并重组生成第二层粒度下的一一对齐的双语语块;步骤24:利用012八++工具包对第二层粒度的双语语块进行训 练,得到第二层粒度下的词对齐文件;步骤25:同样将得到的双向词汇词典、短语词典和词对齐文件 作为下一层粒度的双语语块匹配打分特征,生成多层不同粒度的语块 锚点信息。根据本专利技术的实施例,步骤2所述特征信息划分步骤还包括 步骤26:利用汉、英语的单向标点作为锚点,将汉、英语另外一侧的标点等同为普通词汇,从而利用上层粒度生成的词对齐文件、 词汇词典和短语词典来进行语块的划分与重组,从而获得下层粒度下的双语语块;步骤27:利用0^入++对上层粒度下的双语语块进行训练以获得上层粒度下的词对齐文件,将得到的词汇及短语词典作为下一层粒度 的双语语块匹配打分特征。根据本专利技术的实施例,步骤3所述局部定位的步骤包括步骤31:利用英语的一些关键词特征来作为对上层语块划分的锚点,从而进一步对上层双语语块进行细分,并利用打分匹配算法获得最终的局部定位双语语块;步骤32:利用012八++获得下层粒度下的词对齐文件;步骤33:线性加权多层粒度下的词对齐文件,生成最终的词对齐文件,从而完成自动对齐。根据本专利技术的实施例,所述对于第一层粒度的词对齐生成,并利 用第一层生成的词汇和短语列表词典作为下一层粒度划分语块的特征;对于012八++生成的双向词典的处理,是抽取每个方向的每个词 条所对应的最大概率所对应的那个词条作为该词条的翻译,然后合并 这两个方向的词典生成第一层粒度下的词汇词典;对于短语词典,利用最小错误训练得到的最优参数和解码设置的 最大候选短语个数W来对抽取的所有短语对进行过滤,即首先对 短语对的四个概率利用最小错误训练的最优特征权重来优化为一个 概率打分,其次根据这个概率打分对每个汉语短语所对应的英语短语 进行排序,为每个汉语短语只选择排名前W个英语候选短语作为其 翻译候选,形成最终的带概率的短语词典作为短语词典特征加入到分 割算法中。根据本专利技术的实施例,所述对于第二层及第二层之后的粒度的双语语块的匹配打分,采用无贪婪扩展特征算法来实现无贪婪扩展特征算法是基于很多特征的一种线性模型,这些特征融合了词对齐链接个数以及位置、词汇词典、短语词典和长度惩罚;所述无贪婪是遍历 计算每两个汉英语块对的匹配情况;所述逐步扩展特征是对于任意两 个语块对的匹配得分,只有第一选择和第二选择的匹配得分差别小于 设定的阈值时才扩展下一个特征来重新计算其匹配得分;无贪婪扩展 特征算法具有处理那些不连续及交叉对齐的情况,用于遏制错误的衍 生和蔓延。根据本专利技术的实施例,所述对于第三层粒度局部定位的双语语块 匹配,采用再次利用这层粒度的汉语或英语语块的标点信息而忽视英 语或汉语标点信息的做法来再次挖掘标点的特殊作用,从而将语块的 粒度更加细化,经过这次划分的汉英语块都是不含有划分标点的语 块,再利用结合词对齐的位置特征,将相邻两个语块的词对齐最大最 小位置所不能覆盖的点作为划分的候选锚点,用于进一步降低计算的 复杂度,搜索空间和搜索路径。 -根据本专利技术的实施例,所述利用英语的一些关键词信息,是引导 分句的关键词来对上层语块进一步切割细分,对那些不包含任何划分 标点的单句进疔更小粒度的划分,用于将词对齐控制到一个更小的范围。根据本专利技术的实施例,在所述每层粒度下的词对齐错误率(AER) 和机器翻译评测指标(BLEU),对生成的四个粒度下的四种词对齐文 件进行线性加权,这四个粒度下的词对齐分别是第一层粒度词对齐 是利用012八++工具包直接将原始双语句子作为双语语块进行训练 获得的词对齐文件;第二层粒度词对齐是利用标点信息对第一层粒度 语块进行切本文档来自技高网
...

【技术保护点】
一种汉英词语自动对齐方法,其特征在于,自动对齐的步骤包括: 步骤1:对原始汉、英双语句提取划分语块的特征信息; 步骤2:将特征信息划分,生成多层不同粒度的语块划分锚点信息; 步骤3:利用多层不同粒度语块的锚点信息对双语词对 之间进行局部定位,生成词对齐文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:何彦青周玉宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1