原译文对齐的方法及装置制造方法及图纸

技术编号:17406843 阅读:40 留言:0更新日期:2018-03-07 04:45
本发明专利技术公开了原译文对齐的方法及装置,属于翻译技术领域。该方法包括:生成原文句子标识和译文句子标识的二维表格;确定每句原文句子和每句译文句子之间的句子匹配率,并填入所述二维表格中的对应位置上;根据至少一个设定匹配率,对所述二维表格进行逐次扫描,在所述二维表格的每一行以及每一列中,最多确定一个与所述设定匹配率匹配的第一句子匹配率;根据确定出的所述第一句子匹配率,将对应的原文句子和译文句子对齐。这样,基于所有参与对齐的句子之间的句子匹配率,来进行原译文对齐,提高了原译文对齐的准确率。

Method and device for original translation alignment

The invention discloses the method and device for the alignment of the original translation, which belongs to the field of translation technology. The method comprises: a two-dimensional table generating original sentence identification and sentence identification; determine between each sentence text sentence and every word sentence the sentence matching rate, and fill in the corresponding position of the two in the table; according to at least one set match rate, successive scanning on the two-dimensional tables in each for the two-dimensional table and each column, and the most determined a set the first sentence matching rate of matching rate; according to the determined by the first sentence matching rate, the corresponding original sentence and sentence alignment. In this way, based on the sentence matching rate between all the sentences involved in the alignment, the original translation is aligned to improve the accuracy of the original translation.

【技术实现步骤摘要】
原译文对齐的方法及装置
本专利技术涉及翻译
,特别涉及原译文对齐的方法及装置。
技术介绍
当前计算机辅助翻译是提高翻译一致性和效率的重要手段,它能够帮助翻译者优质、高效、轻松地完成翻译,使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。通过计算机辅助翻译对原文文件进行翻译,形成译文文件后,翻译人员可能需要获取译文文件中与原文文件中设定原文句子对应的译文句子,或者,需要获取原文文件中与设定译文句子对应的原文句子,即需要原文句子和译文句子对齐,从而,可进行后续的校对、编辑等。而目前,可通过翻译人员通过将原文文件和译文文件进行对照查看,进行原文和译文的对齐,效率比较低下。
技术实现思路
本专利技术实施例提供了一种原译文对齐的方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。根据本专利技术实施例的第一方面,提供了一种原译文对齐的方法,包括:生成原文句子标识和译文句子标识的二维表格;确定每句原文句子和每句译文句子之间的句子匹配率,并填入所述二维表格中的对应位置上;根据至少一个设定匹配率,对所述二维表格进行逐次扫描,在所述二维表格的每一行以及每一列中,最多确定一个与所述设定匹配率匹配的第一句子匹配率;根据确定出的所述第一句子匹配率,将对应的原文句子和译文句子对齐。本专利技术一实施例中,所述确定每句原文句子和每句译文句子之间的句子匹配率包括:确定当前原文句子和当前译文句子之间的长度匹配率;确定当前原文句子和当前译文句子之间的提取元素匹配率,其中,所述提取元素匹配率包括:标点匹配率、非译元素匹配率、以及单词匹配率中的至少一个;根据所述长度匹配率以及所述匹配率,确定所述当前原文句子和所述当前译文句子之间的句子匹配率。本专利技术一实施例中,所述在所述二维表格中每一行以及每一列中,最多确定一个与所述设定匹配率匹配的第一句子匹配率包括:扫描所述二维表格,查找与当前设定匹配率相等的第一句子匹配率;将查找到的每个第一句子匹配率所在行和/或所在列的其他句子匹配率设置为零;将所述当前设定匹配率减去设定值后更新为所述当前设定匹配率;根据所述当前设定匹配率,对所述二维表格继续进行扫描,直至所述二维表格除去所述第一句子匹配率以外的其他句子匹配率都为零。本专利技术一实施例中,所述将查找到的每个第一句子匹配率所在行和/或所在列的其他句子匹配率设置为零包括:当查找到的所述第一句子匹配率不在相同的行和列时,将每个第一句子匹配率所在行以及所在列的其他句子匹配率设置为零;当所述第一句子匹配率在相同的行或列时,将所述相同的行或列中的其他句子匹配率设置为零。本专利技术一实施例中,所述根据确定出的所述第一句子匹配率,将对应的原文句子和译文句子对齐包括:将大于第一设定匹配率的所述第一句子匹配率确定为待对齐句子匹配率;确定所述待对齐句子匹配率所在位置对应的待对齐原文句子标识和待对齐译文句子标识;根据所述待对齐原文句子标识和所述待对齐译文句子标识,将对应的原文句子和译文句子对齐。根据本专利技术实施例的第二方面,提供一种原译文对齐的装置,包括:生成单元,用于生成原文句子标识和译文句子标识的二维表格;匹配率填入单元,用于确定每句原文句子和每句译文句子之间的句子匹配率,并填入所述二维表格中的对应位置上;扫描确定单元,用于根据至少一个设定匹配率,对所述二维表格进行逐次扫描,在所述二维表格的每一行以及每一列中,最多确定一个与所述设定匹配率匹配的第一句子匹配率;对齐单元,用于根据确定出的所述第一句子匹配率,将对应的原文句子和译文句子对齐。本专利技术一实施例中,所述匹配率填入单元,具体用于确定当前原文句子和当前译文句子之间的长度匹配率,确定当前原文句子和当前译文句子之间的提取元素匹配率,其中,所述提取元素匹配率包括:标点匹配率、非译元素匹配率、以及单词匹配率中的至少一个,根据所述长度匹配率以及所述匹配率,确定所述当前原文句子和所述当前译文句子之间的句子匹配率。本专利技术一实施例中,所述扫描确定单元,具体用于扫描所述二维表格,查找与当前设定匹配率相等的第一句子匹配率,将查找到的每个第一句子匹配率所在行和/或所在列的其他句子匹配率设置为零,将所述当前设定匹配率减去设定值后更新为所述当前设定匹配率,根据所述当前设定匹配率,对所述二维表格继续进行扫描,直至所述二维表格除去所述第一句子匹配率以外的其他句子匹配率都为零。本专利技术一实施例中,所述扫描确定单元,还用于当查找到的所述第一句子匹配率不在相同的行和列时,将每个第一句子匹配率所在行以及所在列的其他句子匹配率设置为零;当所述第一句子匹配率在相同的行或列时,将所述相同的行或列中的其他句子匹配率设置为零。本专利技术一实施例中,所述对齐单元,具体用于将大于第一设定匹配率的所述第一句子匹配率确定为待对齐句子匹配率;确定所述待对齐句子匹配率所在位置对应的待对齐原文句子标识和待对齐译文句子标识;根据所述待对齐原文句子标识和所述待对齐译文句子标识,将对应的原文句子和译文句子对齐。本专利技术实施例提供的技术方案可以包括以下有益效果:本专利技术实施例中,可根据待对齐的原译文件中每句原文句子和每句译文句子之间的句子匹配率,将原译文件中的原文句子和译文句子对齐,这样,实现了原译文对齐自动化,提高了原译文对齐的效率。另外,基于所有参与对齐的句子之间的句子匹配率,来进行原译文对齐,提高了原译文对齐的准确率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种原译文对齐方法的流程图;图2是根据一示例性实施例示出的一种原译文对齐方法的流程图;图3是根据一示例性实施例示出的一种二维表格的第一示意图;图4是根据一示例性实施例示出的一种二维表格的第二示意图;图5是根据一示例性实施例示出的一种二维表格的第三示意图;图6是根据一示例性实施例示出的一种原译文件对齐装置的框图。具体实施方式以下描述和附图充分地示出本专利技术的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本专利技术的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“专利技术”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的专利技术,不是要自动地限制该应用的范围为任何单个专利技术或专利技术构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与本文档来自技高网...
原译文对齐的方法及装置

【技术保护点】
一种原译文对齐的方法,其特征在于,包括:生成原文句子标识和译文句子标识的二维表格;确定每句原文句子和每句译文句子之间的句子匹配率,并填入所述二维表格中的对应位置上;根据至少一个设定匹配率,对所述二维表格进行逐次扫描,在所述二维表格的每一行以及每一列中,最多确定一个与所述设定匹配率匹配的第一句子匹配率;根据确定出的所述第一句子匹配率,将对应的原文句子和译文句子对齐。

【技术特征摘要】
1.一种原译文对齐的方法,其特征在于,包括:生成原文句子标识和译文句子标识的二维表格;确定每句原文句子和每句译文句子之间的句子匹配率,并填入所述二维表格中的对应位置上;根据至少一个设定匹配率,对所述二维表格进行逐次扫描,在所述二维表格的每一行以及每一列中,最多确定一个与所述设定匹配率匹配的第一句子匹配率;根据确定出的所述第一句子匹配率,将对应的原文句子和译文句子对齐。2.如权利要求1所述的方法,其特征在于,所述确定每句原文句子和每句译文句子之间的句子匹配率包括:确定当前原文句子和当前译文句子之间的长度匹配率;确定当前原文句子和当前译文句子之间的提取元素匹配率,其中,所述提取元素匹配率包括:标点匹配率、非译元素匹配率、以及单词匹配率中的至少一个;根据所述长度匹配率以及所述匹配率,确定所述当前原文句子和所述当前译文句子之间的句子匹配率。3.如权利要求1所述的方法,其特征在于,所述在所述二维表格中每一行以及每一列中,最多确定一个与所述设定匹配率匹配的第一句子匹配率包括:扫描所述二维表格,查找与当前设定匹配率相等的第一句子匹配率;将查找到的每个第一句子匹配率所在行和/或所在列的其他句子匹配率设置为零;将所述当前设定匹配率减去设定值后更新为所述当前设定匹配率;根据所述当前设定匹配率,对所述二维表格继续进行扫描,直至所述二维表格除去所述第一句子匹配率以外的其他句子匹配率都为零。4.如权利要求3所述的方法,其特征在于,所述将查找到的每个第一句子匹配率所在行和/或所在列的其他句子匹配率设置为零包括:当查找到的所述第一句子匹配率不在相同的行和列时,将每个第一句子匹配率所在行以及所在列的其他句子匹配率设置为零;当所述第一句子匹配率在相同的行或列时,将所述相同的行或列中的其他句子匹配率设置为零。5.如权利要求1所述的方法,其特征在于,所述根据确定出的所述第一句子匹配率,将对应的原文句子和译文句子对齐包括:将大于第一设定匹配率的所述第一句子匹配率确定为待对齐句子匹配率;确定所述待对齐句子匹配率所在位置对应的待对齐原文句子标识和待对齐译文句子标识;根据所述待对齐原文...

【专利技术属性】
技术研发人员:房立夫
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1