【技术实现步骤摘要】
一种自动对齐原文句子与译文句子的方法
[0001]本专利技术涉及计算机辅助翻译领域,具体涉及一种自动对齐原文句子与译文句子的方法
。
技术介绍
[0002]CAT
软件的主要功能是建立翻译记忆库来为翻译工作者提供参考,而
CAT
软件的翻译记忆库的生成方式主要有两种,一种是在
CAT
软件进行翻译的过程中自动生成翻译记忆库;另外一种是通过对原文文稿和译文文稿进行对齐,得到一个对齐后的双语文件,再由这个双语文件生成翻译记忆库
。
因此,文件对齐是生成翻译记忆库时重要的一环,直接关系到翻译记忆库生成的质量好坏
。
[0003]一般地,
CAT
软件都支持自动对齐和手动对齐,然后在实际应用中,翻译文件之间的对齐是在两种不同语言的文件之间进行,由于语言的种类不同,构成句子的文字特征都不同,因此,在计算机无法理解句子语义的前提下进行不同语种文件之间的自动对齐,其效果常常也难尽人意
。
技术实现思路
[0004]为了解决上述
技术介绍
中提到的至少一个问题,本专利技术提出了一种自动对齐原文句子与译文句子的方法
。
[0005]一种自动对齐原文句子与译文句子的方法,具体包括步骤:
[0006]步骤
S1
,读入原文文件和译文文件,分别得到原文句子非译字符串和译文句子非译字符串,步骤如下:
[0007]步骤
S101
,定义非译字符串,非译字符串包括双字节 ...
【技术保护点】
【技术特征摘要】
1.
一种自动对齐原文句子与译文句子的方法,其特征在于,包括步骤:步骤
S1
,读入原文文件和译文文件,分别得到原文句子非译字符串和译文句子非译字符串;步骤
S2
,对得到的所有原文句子非译字符串和译文句子非译字符串进行遍历,得到原文句子非译字符串集合和译文句子非译字符串集合;步骤
S3
,将译文非译字符串集合与原文非译字符串集合进行差分运算,得到原文译文对齐句子的锚点;步骤
S4
,定义并判断原文文件和译文文件的语言类型是否相同,如果不相同则在单字节语言文件的锚点之间执行未配对双字节非译字符串的查找和锚点补齐计算,得到单字节语言非译字符串集合;步骤
S5
,对获取到的单字节语言非译字符串集合,在上下两个锚点句子对之间,重新执行步骤
S3
,将新得到的锚点译文句子编号
ID
和原文句子编号
ID
增加到原文译文对齐表;步骤
S6
,将原文文件和译文文件中所有的句子进行自动对齐
。2.
根据权利要求1所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S1
包括步骤:步骤
S101
,定义非译字符串,非译字符串包括双字节语言非译字符串和单字节语言非译字符串;步骤
S102
,读入原文文件,将原文件切分成句子并统一编号;步骤
S103
,将原文句子表中原文句子中的非译字符串提取出来,把提取出来的非译字符串,按照
ISO2022
标准进行重排,并合成原文句子非译字符串;步骤
S104
,读入译文文件,将译文件切分成句子并统一编号;步骤
S105
,将译文句子表中译文句子中的非译字符串提取出来,把非译字符按照
ISO2022
标准进行重排,并合成译文句子非译字符串
。3.
根据权利要求2所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S101
中所述的双字节非译字符串为包含数字
、
单字节文字
、
特殊符号
、
公式和图形的连续字符串,其中特殊符号为用户自定义的任意字符;所述的单字节非译字符串为包含数字
、
两个以上的连续大写英文
、
特殊符号
、
公式和图形的单词
。4.
根据权利要求2所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S102
包括步骤:步骤
A01
,以段落标识符为切分符,将原文文件切分为段落;步骤
A02
,将得到的段落以标点符号为切分符,切分为句子;步骤
A03
,接着将切分后的句子进行统一的编号
ID
;步骤
A04
,将统一编号后的句子存入原文句子表;步骤
S104
包括步骤:步骤
B01
,以段落标识符为切分符,将译文文件切分为段落;步骤
B02
,将得到的段落以标点符号为切分符,切分为句子;步骤
B03
,接着将切分后的句子进行统一的编号
ID
;步骤
B04
,将统一编号后的句子存入译文句子表
。
5.
根据权利要求1所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S2
包括步骤:步骤
S201
,遍历所有的原文句子非译字符串,并按照原文句子的顺序对原文句子非译字符串进行排列,得到原文句子非译字符串集合;步骤
S202
,遍历所有的译文句子非译字符串,并按照译文句子的顺序对译文句子非译字符串进行排列,得到译文句子非译字符串集合
。6.
根据权利要求1所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S3
包括步骤:步骤
S301
,对译文句子非译字符串集合和原文句子非译字符串集合进行差分运算;步骤
S302
,根据差分运算的结果,判断为原文句子和译文句子是否已经对齐,如果原文句子和译文句子已经对齐,则将对齐后的译文句子编号
ID
和原文句子编号
ID
记录下来,具体...
【专利技术属性】
技术研发人员:吴志武,
申请(专利权)人:杭州译友网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。