当前位置: 首页 > 专利查询>刘建专利>正文

一种双语段落对齐算法制造技术

技术编号:4168467 阅读:222 留言:0更新日期:2012-04-11 18:40
本发明专利技术申请以堆双语语料库进行语段级对齐是基于实例的机器翻译(EBMT)的基础,提出了基于锚词对的英汉双语语段对齐模型并给出了相应的对齐算法,解决了中、小规模语料库的数据稀疏问题。系统把语段切分的歧义推迟到语段对齐时排除,提高了语段切分的正确率。

A bilingual paragraph alignment algorithm

The invention applies to pile of bilingual corpus language chunk alignment is an example based on the Machine Translation (EBMT) foundation, proposed anchor English Chinese bilingual alignment on the model and gives the corresponding alignment algorithm based on solving the sparse data of middle and small scale corpus problem. The system reduces the segmentation ambiguities to the segment alignment, and improves the accuracy of segment segmentation.

【技术实现步骤摘要】

本专利技术专利涉及自然语言理解中的英汉双语理解技术。尤其是语段对齐技术
技术介绍
近年来,随着语料库语言学的发展,基于实例的机器翻译(Example-based MT)方法成为机器翻译的 新思路之一。EBMT系统事先存储大量语段级对齐的双语句子对,即双语语料库。翻译时,系统仅对被翻 译句进行浅层分析,把它切分成语段,然后根据上下文从双语语料库中找出各语段的最佳翻译,再把它们 按一定的顺序排列起来,最后生成译句。这种方法避开了传统翻译方法中的诸多难题(如句法分析、词义 辨识等),具有一定的实用性,尤其适用于专业领域文本的翻译。对双语语料库进行语段对齐是基于实例 的机器翻译的需求,同时,对齐的双语语段本身也可以作为一种翻译知识独立使用。双语语段对齐的方法有两类基于评分的方法和基于翻译模型的方法。前者是基于评分函数的,参数 需耍人工设定,不能根据真实语料进行训练。1993年IBM公司的提出了基于词的(word-based)统计机器 翻译模型。在该模型中提出了隐藏对齐(Hidden-alignment)的思想,认为翻译的过程中隐含了对齐的过程。 Ye-Yi Wang提出了基于结构的(Structure-based)统计翻译模型,把语段看成是翻译的基本单位,并给出 了基于统计的解码(decoding)翻译算法。在专业领域(如本文中的汽车领域)的EBMT应用中,系统可利用的专业领域双语语料库一般是中、 小规模的。这使得模型中的概率数据(如任一英语单词翻译为任一汉语词的概率)存有严重的数据稀疏问 题。为此,本专利提出了基于锚词对的双语语段对齐模型,使用锚词对增加了语段对齐的准确度,提出并 使用词性语段概念来平滑概率参数,这样很好地克服了数据稀疏问题。由于系统采用EBMT翻译方法 而不是统计解码翻译方法进行翻译,才使得模型可以利用后验的锚词对信息,来提高对齐的准确度。本模 型可以用于参数估计和对齐,但由于对齐时使用了锚词对而不能进行统计解码翻译,故不称翻译模型 而称对齐模型。系统没有把语段的切分和对齐分开进行,而是在语段对齐的同时排除语段切分时产生 的歧义,提髙了模型的精确性。
技术实现思路
在专业领域(如本文中的汽车领域)的EBMT应用中,系统可利用的专业领域双语语料库一般是中、 小规模的。这使得模型中的概率数据(如任一英语单词翻译为任一汉语词的概率)存有严重的数据稀疏问 题。为此,本专利提出了基于锚词对的双语语段对齐模型,使用锚词对增加了语段对齐的准确度,提出并 使用词性语段概念来平滑概率参数,这样很好地克服了数据稀疏问题。由于系统采用EBMT翻译方法 而不是统计解码翻译方法进行翻译,才使得模型可以利用后验的锚词对信息,来提高对齐的准确度。本模 型可以用于参数估计和对齐,但由于对齐时使用了锚词对而不能进行统计解码翻译,故不称翻译模型 而称对齐模型。系统没有把语段的切分和对齐分开进行,而是在语段对齐的同时排除语段切分时产生 的歧义,提高了模型的精确性。设待翻译的英语句为e =£^2'''6/,翻译生成的汉语句为e = ^£2^'。基于语段的噪声信道模型由 汉语句i输出英语句^随机过程如下(1)把汉语句切分成语段,并称切分的结果为汉语语段串。设其长度为,则切分后的汉语语段串可表示为^ = C'(,其中G = e'i'q2C' (1 2 / ^ )是汉语语段,而q〃是e中的某个词。并设汉语句子5切分为语段串e的概率为Pr(^1^。(2)根据汉语句e和语段串C,选择英语语段串^的长度(即它所含语段数)。£ =五,五,...五,9 ,其中(3) 对每个英语语段,选择和它对齐的汉语语段的位置。设第7'个英语语段和第 个汉语语段对齐。本文中,记汉语语段串^为,记英语语段串^的子串 AA…&为£,,记a一2…^为af 。并设第_/个英语语段和第 个汉语语段对齐的概率为(4) 对每个汉语语段C,选择一个翻译E。设其概率为Eie),其中^对于每个C满足归一条件上面的随机过程基于一个隐藏语段、隐藏对齐(hidden-Alignment)的模型。翻译和对齐的关系包括: 1.翻译隐含对齐;2.最佳翻译对应一个最佳对齐。噪声信道由输入f输出g的概率等于它在所有可能的 语段切分和所有可能的对齐的情况下输出?的概率之和,艮口其中,Pr( ,^,( ,5l5)为汉语句f在切分为语段串匸,语段串(5通过对齐5翻译为E,生成英语句 的概率。假设^的产生只与C、 5有关,而与f无关;?的产生只与^有关,而与其他参数无关。则Pr(S, S, < , 5 I f) = Pr( I幻Pr(S, 51 。 Pr(( | f)由此可得》(£|C) = 1(5)把英语语段串S合并为英语句S ,设其概率为pr(S I,则有:以下'都是对所有合法的语段切分路径而言,则有:Pr(S I = 1Pr(£,5|C)Pr(引Qf][Pr(, I/—',五广,g力)<formula>formula see original document page 5</formula>上式中n 右的第一项表示生成新对齐的概率,第二项生成新语段的概率。假设(l)Pr(《|e)E£为了求满足约束Z五I C) = 1的Pr( I f)的最大值,建立如下辅助函数wa)三i *ZnA i c。,)々]}五 c它取得极值的条件为~^~ = 0其中5是Kronecker delta函数,则有五| C)=义£—!艺Z{Pr(。 | f)x Z Pr(艮5 I亡)J^(五,& W(C, C )}户i定义语段£^1C在翻译5)中的有效共现次数为:c(£ I C; , f) = Z Z (Pr(e I f) Pr(51S, OS 。产i由Pr(3 I艮< ) = Pr(艮5 I C) / Pr(S | ( )和Pr(f | O也可表示为Z [^ | C )《],可得:户l ,=0 ;其中4 = 4 /P^ , C) ^ i C;e,c) = ;|>(C , c) x 隨!。《}为了估计^,我们引入了锚词(anchor)对。目前,锚词对尚无统一的定义,因为它往往跟具体的应 用密切相关。通常,锚词对是指源语言和目标语言中的一对有较高对译可能的源语言、目标语言词对。锚 词对的精确定义因系统而异。在本系统中,词对Oi^,MV >是锚词对当且仅当它们不是冠词或介词、在双语词典中出现而且在对译句中只有一词与之对译。可以借助对齐好的锚词对来确定同一句子中其他词(或 语段)之间的对齐。本文中令第乂个英语语段和第A:个汉语语段对齐的概率为《=Pr(a; = A: |《1,五/-1 ,仏。)=士e 2'''2〃 =y。 + (ce /^(/) _ x。)(;^ _ y。) /(Xj — x0) = min(| ce/er(/) _ x。 |,| t'e她r(/) 一 x, |) ce妙(j') = (Seg/wP(w(/) +五i/尸cw(j.)) / 2其中<x。,y。 >是语段j'左侧离语段y最近(根据(ceter(力—x。))的锚词对,而〈jc,,a >是语段/右 侧离语段_/最近的锚词对;Seg/尸cw(力是指语段)本文档来自技高网
...

【技术保护点】
本专利申请中提出的为平滑参数而提出的“词形语段”的概念。

【技术特征摘要】
1. 本专利申请中提出的为平滑...

【专利技术属性】
技术研发人员:刘建
申请(专利权)人:刘建
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1