当前位置: 首页 > 专利查询>清华大学专利>正文

双语文本的对齐方法及装置制造方法及图纸

技术编号:3856466 阅读:232 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种双语文本的对齐方法及装置,属于文本信息处理领域。所述方法包括:将待对齐双语文本的原文文本及译文文本分别进行预处理;判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本分割成多个双语文本片段;根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语文本。所述装置包括:预处理模块、判断模块、分段模块和对齐模块。本发明专利技术通过判断原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果将经过预处理的双语文本可靠地分段,再根据词语间的互译关系,分别对每个双语文本片段进行对齐,具有提升对齐的速度,保证良好鲁棒性的效果。

【技术实现步骤摘要】

本专利技术涉及文本信息处理领域,特别涉及一种双语文本的对齐方法及装置
技术介绍
随着互联网的迅猛发展,互联网上的信息量呈指数爆炸式增长。如何利用好这些信息则成为了一个难题,尤其是语言上的不统一,人们期望有一种自动的或需要很少人工干预的方法将一种语言转换成另一种语言,而这些方法的设计和实施需要大量的双语对齐文本(即已给出在篇章级、句子级、词语级等级别的对应关系的双语文本)。由于人工制作双语对齐文本费时费力,于是需要一些方法来自动对双语文本进行对齐(即给出双语文本在篇章级、句子级、词语级等的对应关系)。现有技术中的一种对齐方式是采用句子长度信息来对双语文本进行对齐;另 一种对齐方式是采用词语间互译关系来对双语文本进行对齐。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下几个缺点采用句子长度信息来对双语文本进行对齐时,当输入文本中出现的句子缺失或插入时,会引起对齐性能的急剧下降,从而导致鲁棒性差;第二种对齐方式随着文本长度的增加,词语数量的增多,对齐的时间也将随之增长,从而导致对齐的速度很慢。
技术实现思路
为了提高双语文本的对齐速度,并同时保证良好的鲁棒性,本专利技术实施例提供了 一种双语文本的对齐方法及装置。所述技术方案如下一方面,提供了一种双语文本的对齐方法,所述方法包括将待对齐双语文本的原文文本及译文文本分别进行预处理;判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本分割成多个双语文本片段;根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语 文本。另一方面,提供了一种双语文本的对齐装置,所述装置包括判断模块,用于判断所述原文文本及译文文本之间的句子数差值是否足够大;分段模块,用于根据所述判断模块的判断结果,将经过预处理的双语文本 分割成多个双语文本片段;对齐模块,用于根据词语间的互译关系,将所述分段模块得到的每个双语 文本片段进行对齐,得到对齐的双语文本。本专利技术实施例提供的技术方案的有益效果是通过判断原文文本及译文文本之间的句子数差值是否足够大,并根据判断 结果,将经过预处理的双语文本可靠地分段,再分别对每个双语文本片段进行 对齐,从而提升对齐的速度;又由于在对每个双语文本片段进行对齐时,采用 的是词语间的互译关系,因此保证了良好的鲁棒性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。图1是本专利技术实施例1提供的双语文本的对齐方法流程图2是本专利技术实施例2提供的双语文本的对齐方法流程图3是本专利技术实施例3提供的双语文本的对齐装置结构示意图4是本专利技术实施例3提供的双语文本的对齐装置中的分段模块结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。 实施例1参见图1,本实施例提供了一种双语文本的对齐方法,方法流程如下所示101:将待对齐双语文本的原文文本及译文文本分别进行预处理;102:判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本分段,得到一至多个双语文本片段;103:根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语文本。本实施例提供的方法,通过判断原文文本及译文文本之间的句子数差值是 否足够大,并根据判断结果,将经过预处理的双语文本可靠地分段,再分别对 每个双语文本片段进行对齐,从而提升对齐的速度;又由于在对每个双语文本 片段进行对齐时,采用的是词语间的互译关系,因此保证了良好的鲁棒性。实施例2参见图2,本实施例提供了一种双语文本的对齐方法,该方法针对句子级的 对齐,通过将双语文本可靠地分段来有效提高句子对齐的速度,从而实现整篇 双语文本的对齐,具体方法流程如下201:将待对齐双语文本的原文文本及译文文本分别进行预处理;并将存在词根的词映射为对应的词根,例如,将英文中代表名词复数的词映射 成对应的单数词;将标点符号转换成单字节形式,例如,将中文双引号映射成 ASCII石马(American Standard Code for Information Interchange , 美国信 息交换标准代码);将易于转换的非阿拉伯数字转换成阿拉伯数字,例如,将"三 十五"转换成"35";除此之外,还要统计每个词在整篇文本中出现的次数,及 在其所在的句子中出现的次数,并统计每个句子的指紋。 关于句子的指紋,定义如下:给定句子序列 L, &,记wC^为句子s.中所有词的集合,则句子《的 指紋为其中,F(^H『0》—F(&)-『(&)-『Cvi),"-"代表集合的差运算。202:判断原文文本及译文文本之间的句子数差值是否足够大,如果是,执 行206,否则,执行203;针对该步骤,设原文文本的句子数为^,译文文本的句子数为i^,如果 l^-A^I/minCTVp 7V2)>0.5,则认为差值足够大,其中,min(A^, i^)表示取i^与iV2 中的最小值。203:使用句子长度信息将原文文本及译文文本进行初步对齐,得到多个句子对;具体地,给定两段互为翻译的文本(s; r)-(^&L <sw; 7;r2L r ),其中,s 为原文文本,r为译文文本,s.和7分别为原文文本和译文文本中的第z'个句子。 用4 = (&M+1,&,;rAM+1,7;)表示一组句子,称为一个句子对。如果存在At0 = 0 <…< < <…< a4 - w,60 = 0 <…< &w < ^ <…< ^ = w , 贝'J称^4=4, 4二 , ^为(s; r)的一个对齐。在使用句子长度信息将原文文本及译文文本进行初步对齐时,通过建立数 学模型来描述原文文本句子长度与译文文本句子长度间的关系,根据此模型可以算出任意一个句子对对齐的概率尸(4),而原文文本和译文文本的一个对齐爿的概率则为尸04)-P(4)尸(4)L尸(4t),将令户04)取得最大值的对齐作为原文与译文的对齐结果,根据对齐结果,得到多个句子对;目前已有多个才莫型提出原 文文本句子长度与译文文本句子长度间的关系,但这些模型的定义之间比较相 似,没有根本性的差别,并不影响本专利技术实施例的实施,可以才艮据具体的语言 选取一种最适合的模型使用。在本实施例中,定义户(4)-尸(^P(A^, AV),其中,尸(。=(1/71^>—了,"dc》/VV72 , ^为4中原文文本句子长度,^r为译文文本句子长度,c 是单位长度的译文文本平均对应的原文文本长度(亦即单位长度的译文文本对 应的原文文本长度的数学期望),(J是单位长度的译文文本对应的原文文本长度 的方差,这两个值在不同的语言间是不同的,可以使用相应语言的句子级互译文本统计得到。关于尸(iVs, iV》的定义使用句子级互译文本可以得到不同数量的原文文本 句子与译文文本句子对齐的概率,举一例说明,假设从句子级互译文本中本文档来自技高网...

【技术保护点】
一种双语文本的对齐方法,其特征在于,所述方法包括:  将待对齐双语文本的原文文本及译文文本分别进行预处理;  判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本分割成多个双语文本片段;  根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:李鹏孙茂松薛平
申请(专利权)人:清华大学波音公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1