【技术实现步骤摘要】
基于两两对齐的多语种句对齐方法及装置
本专利技术属于信息
,尤其涉及信息
互联网语言翻译系统中的多语种句对齐方法。
技术介绍
平行双语语料,是指第一种语言的文本数据是第二种语言的文本数据的译文的两种语言文本构成的数据集合。平行多语语料,是指含有多种语种的文本数据的集合,其中任意两种语种的文本数据可以构成平行双语语料。如果用第一种语言写出的一个文档恰为用第二种语言写出的文档的译文,则称这两个文档是平行的。如果用第一种语言写出的文档中的句子S1恰为用第二种语言写出的文档中句子S2的译文,则称这两个句子是对齐的。在这个对齐中,第一种语言称为源语言,第二种语言称为目标语言,S1称为源语言句子,S2称为目标语言句子。两个句子对齐的表示方法是给两个句子分别标上不重复的整数N1和N2作为句子标识,对于对齐的句子用这两个整数组成数对N1-N2来表示对齐关系。但对齐关系并不限于用这种方式表示。如果有m个不同语种的文档,其中第i个语种的文档中标识为Ni的句子Si,与第j个语种的文档中标识为Nj的句子Sj互为译文,则称Si和Sj是两两对齐的。其中i和j的取值均为1..m。对 ...
【技术保护点】
基于两两对齐的多语种句对齐装置,其特征在于,它包括:用于获取同一文件至少三种不同语言版本的文本的装置;用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置;用于对不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的装置;用于对集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的装置;用于对差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的装置。
【技术特征摘要】
1.基于两两对齐的多语种句对齐装置,其特征在于,它包括:用于获取同一文件至少三种不同语言版本的文本的装置;用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置;用于对不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐的句子的集合A的装置;用于对集合A中每组两两对齐的句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的装置;用于对差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的装置;该装置中对差异部分进行评分并重新进行两两对齐,使得多语种句对齐结果具有一致性,进而将两两对齐结果中部分对齐错误的错误结果更正过来。2.根据权利要求1所述基于两两对齐的多语种句对齐装置,其特征在于,用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置进一步包括:用于将每个语种的文本中所有的时间标识和换行符删除,获得所有句子均合并为一行的文本的装置;用于对文本中所有字符进行扫描,扫描所有表示语句结束的符号,然后根据所述符号将文本分割成若干条句子,每条句子作为一个独立的单语种句子的装置。3.根据权利要求1所述基于两两对齐的多语种句对齐装置,其特征在于,用于对两两对齐的句子进行冲突识别的装置进一步包括:用于将所有两两对齐的句子放入索引表中进行索引的装置;用于判断所有两两对齐的句子是否冲突,并将冲突的两两对齐的句子标记为冲突的装置。4.基于两两对齐的多语种句对齐方法,其特征在于,该方法包括以下步骤:步骤一:用于获取同一文件至少三种不同语言版本的文本的步骤;步骤二:用于分别对步骤一获得的每个语种的文本进行句子分割,获得不同语种待对齐的句子的步骤;步骤三:用于对步骤二获得的不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐的句子的集合A的步骤;步骤四:用于对步骤三获得的集合A中每组两两对齐的句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的步骤;步骤五:用于对步骤四获得的差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐...
【专利技术属性】
技术研发人员:薛永增,郑德权,徐冰,赵铁军,朱聪慧,杨沐昀,曹海龙,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。