基于两两对齐的多语种句对齐方法及装置制造方法及图纸

技术编号:9738672 阅读:256 留言:0更新日期:2014-03-06 16:24
基于两两对齐的多语种句对齐方法及装置,属于信息技术领域,尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。本发明专利技术是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题。本发明专利技术所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本发明专利技术所述的基于两两对齐的多语种句对齐方法及装置,适用于信息技术领域互联网语言翻译系统中。

【技术实现步骤摘要】
基于两两对齐的多语种句对齐方法及装置
本专利技术属于信息
,尤其涉及信息
互联网语言翻译系统中的多语种句对齐方法。
技术介绍
平行双语语料,是指第一种语言的文本数据是第二种语言的文本数据的译文的两种语言文本构成的数据集合。平行多语语料,是指含有多种语种的文本数据的集合,其中任意两种语种的文本数据可以构成平行双语语料。如果用第一种语言写出的一个文档恰为用第二种语言写出的文档的译文,则称这两个文档是平行的。如果用第一种语言写出的文档中的句子S1恰为用第二种语言写出的文档中句子S2的译文,则称这两个句子是对齐的。在这个对齐中,第一种语言称为源语言,第二种语言称为目标语言,S1称为源语言句子,S2称为目标语言句子。两个句子对齐的表示方法是给两个句子分别标上不重复的整数N1和N2作为句子标识,对于对齐的句子用这两个整数组成数对N1-N2来表示对齐关系。但对齐关系并不限于用这种方式表示。如果有m个不同语种的文档,其中第i个语种的文档中标识为Ni的句子Si,与第j个语种的文档中标识为Nj的句子Sj互为译文,则称Si和Sj是两两对齐的。其中i和j的取值均为1..m。对于平行多语语料具有广泛的需求,例如:它能够作为统计机器翻译的训练语料,用于多个语种相互之间的翻译,也可以用于跨语言信息检索,在不同语种的文档中检索相关信息等。在这些需求中,如何提高句对齐的质量是目前迫切需要解决的问题。句对齐的质量常用下面三种标准来衡量。但句对齐质量并不限于仅用这三种标准衡量。1、准确率:是已经对齐正确的句对数和所有对齐的句对数之比;2、召回率:是已经对齐的句对数和所有句对数之比;3、F值:是准确率和召回率之积的两倍除以准确率和召回率之和。这三种标准中,最后计算得到的值越大,则说明句对齐质量越高,反之则句对齐质量越低。但是,目前现有的方法都是用两种语言的信息来进行不同语言句子之间的两两对齐,对于多语种的情况,一般也按照多个两种语言的平行语料加以处理。由于对齐错误的存在,这种两两对齐的方法都可能导致以下两个问题:1、对齐不一致的问题:以三个语种i,j,k为例,可能出现这样的情况,存在句子Si,Sj,Sk,其中Si与Sj对齐,Sj与Sk对齐,但是Si却不和Sk对齐,很显然按照一般的逻辑推理Si,Sj,Sk要么两两对齐要么都不对齐。2、对齐质量的问题:由前述“对齐不一致问题”可知,由于正确的对齐没有被识别出来,往往导致上述三种标准中的某一项或多项指标下降,如果“对齐不一致问题”得到解决,则能够缓解该问题。
技术实现思路
本专利技术是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题,现提供基于两两对齐的多语种句对齐方法及装置。基于两两对齐的多语种句对齐装置,该装置包括:用于获取同一文件至少三种不同语言版本的文本的装置;用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置;用于对不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的装置;用于对集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的装置;用于对差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的装置。基于两两对齐的多语种句对齐方法,该方法包括以下步骤:步骤一:用于获取同一文件至少三种不同语言版本的文本的步骤;步骤二:用于分别对步骤一获得的每个语种的文本进行句子分割,获得不同语种待对齐的句子的步骤;步骤三:用于对步骤二获得的不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的步骤;步骤四:用于对步骤三获得的集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的步骤;步骤五:用于对步骤四获得的差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的步骤。本专利技术所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本专利技术所述的基于两两对齐的多语种句对齐方法及装置,对自然语言处理、文本信息处理具有促进作用,适用于信息
互联网语言翻译系统中。附图说明图1是具体实施方式四所述基于两两对齐的多语种句对齐方法的流程图。图2是具体实施方式六所述对两两对齐结果中的差异部分进行识别的方法的流程图。图3是具体实施方式七所述的索引表的结构示意图。具体实施方式具体实施方式一:本实施方式所述的基于两两对齐的多语种句对齐装置,该装置包括:用于获取同一文件至少三种不同语言版本的文本的装置;用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置;用于对不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的装置;用于对集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的装置;用于对差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的装置。具体实施方式二:本实施方式是对具体实施方式一所述的基于两两对齐的多语种句对齐装置作进一步说明,本实施方式中,用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置进一步包括:用于将每个语种的文本中所有的时间标识和换行符删除,获得所有句子均合并为一行的文本的装置;用于对文本中所有字符进行扫描,扫描所有表示语句结束的符号,然后根据所述符号将文本分割成若干条句子,每条句子作为一个独立的单语种句子的装置。具体实施方式三:本实施方式是对具体实施方式一所述的基于两两对齐的多语种句对齐装置作进一步说明,本实施方式中,用于对两两对齐句子进行冲突识别的装置进一步包括:用于将所有两两对齐的句子放入索引表中进行索引的装置;用于判断所有两两对齐的句子是否冲突,并将冲突的两两对齐句子标记为冲突的装置。具体实施方式四:参照图1具体说明本实施方式,基于两两对齐的多语种句对齐方法,该方法包括以下步骤:步骤一:用于获取同一文件至少三种不同语言版本的文本的步骤;步骤二:用于分别对步骤一获得的每个语种的文本进行句子分割,获得不同语种待对齐的句子的步骤;步骤三:用于对步骤二获得的不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的步骤;步骤四:用于对步骤三获得的集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的步骤;步骤五:用于对步骤四获得的差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对本文档来自技高网
...
基于两两对齐的多语种句对齐方法及装置

【技术保护点】
基于两两对齐的多语种句对齐装置,其特征在于,它包括:用于获取同一文件至少三种不同语言版本的文本的装置;用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置;用于对不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的装置;用于对集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的装置;用于对差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的装置。

【技术特征摘要】
1.基于两两对齐的多语种句对齐装置,其特征在于,它包括:用于获取同一文件至少三种不同语言版本的文本的装置;用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置;用于对不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐的句子的集合A的装置;用于对集合A中每组两两对齐的句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的装置;用于对差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的装置;该装置中对差异部分进行评分并重新进行两两对齐,使得多语种句对齐结果具有一致性,进而将两两对齐结果中部分对齐错误的错误结果更正过来。2.根据权利要求1所述基于两两对齐的多语种句对齐装置,其特征在于,用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置进一步包括:用于将每个语种的文本中所有的时间标识和换行符删除,获得所有句子均合并为一行的文本的装置;用于对文本中所有字符进行扫描,扫描所有表示语句结束的符号,然后根据所述符号将文本分割成若干条句子,每条句子作为一个独立的单语种句子的装置。3.根据权利要求1所述基于两两对齐的多语种句对齐装置,其特征在于,用于对两两对齐的句子进行冲突识别的装置进一步包括:用于将所有两两对齐的句子放入索引表中进行索引的装置;用于判断所有两两对齐的句子是否冲突,并将冲突的两两对齐的句子标记为冲突的装置。4.基于两两对齐的多语种句对齐方法,其特征在于,该方法包括以下步骤:步骤一:用于获取同一文件至少三种不同语言版本的文本的步骤;步骤二:用于分别对步骤一获得的每个语种的文本进行句子分割,获得不同语种待对齐的句子的步骤;步骤三:用于对步骤二获得的不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐的句子的集合A的步骤;步骤四:用于对步骤三获得的集合A中每组两两对齐的句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的步骤;步骤五:用于对步骤四获得的差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐...

【专利技术属性】
技术研发人员:薛永增郑德权徐冰赵铁军朱聪慧杨沐昀曹海龙
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1