一种自动对齐原文句子与译文句子的方法技术

技术编号:39666885 阅读:9 留言:0更新日期:2023-12-11 18:31
本发明专利技术涉及计算机辅助翻译领域,具体公开了一种自动对齐原文句子与译文句子的方法

【技术实现步骤摘要】
一种自动对齐原文句子与译文句子的方法


[0001]本专利技术涉及计算机辅助翻译领域,具体涉及一种自动对齐原文句子与译文句子的方法


技术介绍

[0002]CAT
软件的主要功能是建立翻译记忆库来为翻译工作者提供参考,而
CAT
软件的翻译记忆库的生成方式主要有两种,一种是在
CAT
软件进行翻译的过程中自动生成翻译记忆库;另外一种是通过对原文文稿和译文文稿进行对齐,得到一个对齐后的双语文件,再由这个双语文件生成翻译记忆库

因此,文件对齐是生成翻译记忆库时重要的一环,直接关系到翻译记忆库生成的质量好坏

[0003]一般地,
CAT
软件都支持自动对齐和手动对齐,然后在实际应用中,翻译文件之间的对齐是在两种不同语言的文件之间进行,由于语言的种类不同,构成句子的文字特征都不同,因此,在计算机无法理解句子语义的前提下进行不同语种文件之间的自动对齐,其效果常常也难尽人意


技术实现思路

[0004]为了解决上述
技术介绍
中提到的至少一个问题,本专利技术提出了一种自动对齐原文句子与译文句子的方法

[0005]一种自动对齐原文句子与译文句子的方法,具体包括步骤:
[0006]步骤
S1
,读入原文文件和译文文件,分别得到原文句子非译字符串和译文句子非译字符串,步骤如下:
[0007]步骤
S101
,定义非译字符串,非译字符串包括双字节语言非译字符串和单字节语言非译字符串;
[0008]其中,双字节非译字符串为包含数字

单字节文字

特殊符号

公式和图形的连续字符串,其中特殊符号为用户自定义的任意字符;单字节非译字符串为包含数字

两个以上的连续大写英文

特殊符号

公式和图形的单词;
[0009]步骤
S102
,读入原文文件,将原文件切分成句子并统一编号,具体步骤如下:
[0010]首先,以段落标识符为切分符,将原文文件切分为段落;
[0011]然后,将得到的段落以标点符号为切分符,切分为句子;
[0012]接着,将切分后的句子进行统一的编号
ID

[0013]最后,将统一编号后的句子存入原文句子表,具体步骤如下:
[0014]首先,以段落标识符为切分符,将译文文件切分为段落;
[0015]然后,将得到的段落以标点符号为切分符,切分为句子;
[0016]接着,将切分后的句子进行统一的编号
ID

[0017]最后,将统一编号后的句子存入译文句子表;
[0018]步骤
S103
,将原文句子表中原文句子中的非译字符串提取出来,把提取出来的非
译字符串,按照
ISO2022
标准进行重排,并合成原文句子非译字符串;
[0019]步骤
S104
,读入译文文件,将译文件切分成句子并统一编号;
[0020]步骤
S105
,将译文句子表中译文句子中的非译字符串提取出来,把非译字符按照
ISO2022
标准进行重排,并合成译文句子非译字符串

[0021]步骤
S2
,对得到的所有原文句子非译字符串和译文句子非译字符串进行遍历,得到原文句子非译字符串集合和译文句子非译字符串集合,步骤如下:
[0022]步骤
S201
,遍历所有的原文句子非译字符串,并按照原文句子的顺序对原文句子非译字符串进行排列,得到原文句子非译字符串集合;
[0023]步骤
S202
,遍历所有的译文句子非译字符串,并按照译文句子的顺序对译文句子非译字符串进行排列,得到译文句子非译字符串集合

[0024]步骤
S3
,将译文非译字符串集合与原文非译字符串集合进行差分运算,得到原文译文对齐句子的锚点,步骤如下:
[0025]步骤
S301
,对译文句子非译字符串集合和原文句子非译字符串集合进行差分运算;
[0026]步骤
S302
,根据差分运算的结果,判断为原文句子和译文句子是否已经对齐,如果原文句子和译文句子已经对齐,则将对齐后的译文句子编号
ID
和原文句子编号
ID
记录下来,具体判断规则为:如果译文句子非译字符串和原文句子非译字符串相同,则判断原文句子和译文句子已经对齐,并作为全文句子对齐的一个锚点;
[0027]步骤
S303
,将所有通过差分运算已经对齐的的译文句子编号
ID
和原文句子编号
ID
录入原文译文对齐表

[0028]步骤
S4
,定义并判断原文文件和译文文件的语言类型是否相同,如果不相同则在单字节语言文件的锚点之间执行未配对双字节非译字符串的查找和锚点补齐计算,得到单字节语言非译字符串集合,步骤如下:
[0029]步骤
S401
,从原文译文对齐表中获取两个上下相邻锚点的句子对,标记双字节语言句子的上句编号
ID

i
,双字节语言句子的下句编号
ID

j
,单字节语言句子的上句编号
ID

k
,单字节语言句子的下句编号
ID

l

[0030]步骤
S402
,对所有双字节语言句子进行遍历,获取所有公式一成立时,该双字节语言中的所有双字节非译字符串,并将获取到的双字节非译字符串按照标注规则一进行标注,其中,公式一的公式为:
[0031]i<TwoByteFile_ID<j
[0032]式中,
TwoByteFile_ID
表示该双字节语言句子的编号
ID

i
表示该双字节语言句子上句锚点句子的编号
ID

j
表示该双字节语言句子下句锚点句子的编号
ID

[0033]标注规则一的公式为:
[0034][
句子编号
ID
:双字节非译字符串
N
][0035]式中,
N
为正整数,表示双字节非译字符串的编号;
[0036]步骤
S403
,对所有满足公式二的单字节语言句子进行遍历,用正则化的方法,查找单字节语言句子中是否存在和双字节语言句子中相同的单词,如果存在则将这些单词与该句子的其他非译字符串,按照
ISO本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种自动对齐原文句子与译文句子的方法,其特征在于,包括步骤:步骤
S1
,读入原文文件和译文文件,分别得到原文句子非译字符串和译文句子非译字符串;步骤
S2
,对得到的所有原文句子非译字符串和译文句子非译字符串进行遍历,得到原文句子非译字符串集合和译文句子非译字符串集合;步骤
S3
,将译文非译字符串集合与原文非译字符串集合进行差分运算,得到原文译文对齐句子的锚点;步骤
S4
,定义并判断原文文件和译文文件的语言类型是否相同,如果不相同则在单字节语言文件的锚点之间执行未配对双字节非译字符串的查找和锚点补齐计算,得到单字节语言非译字符串集合;步骤
S5
,对获取到的单字节语言非译字符串集合,在上下两个锚点句子对之间,重新执行步骤
S3
,将新得到的锚点译文句子编号
ID
和原文句子编号
ID
增加到原文译文对齐表;步骤
S6
,将原文文件和译文文件中所有的句子进行自动对齐
。2.
根据权利要求1所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S1
包括步骤:步骤
S101
,定义非译字符串,非译字符串包括双字节语言非译字符串和单字节语言非译字符串;步骤
S102
,读入原文文件,将原文件切分成句子并统一编号;步骤
S103
,将原文句子表中原文句子中的非译字符串提取出来,把提取出来的非译字符串,按照
ISO2022
标准进行重排,并合成原文句子非译字符串;步骤
S104
,读入译文文件,将译文件切分成句子并统一编号;步骤
S105
,将译文句子表中译文句子中的非译字符串提取出来,把非译字符按照
ISO2022
标准进行重排,并合成译文句子非译字符串
。3.
根据权利要求2所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S101
中所述的双字节非译字符串为包含数字

单字节文字

特殊符号

公式和图形的连续字符串,其中特殊符号为用户自定义的任意字符;所述的单字节非译字符串为包含数字

两个以上的连续大写英文

特殊符号

公式和图形的单词
。4.
根据权利要求2所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S102
包括步骤:步骤
A01
,以段落标识符为切分符,将原文文件切分为段落;步骤
A02
,将得到的段落以标点符号为切分符,切分为句子;步骤
A03
,接着将切分后的句子进行统一的编号
ID
;步骤
A04
,将统一编号后的句子存入原文句子表;步骤
S104
包括步骤:步骤
B01
,以段落标识符为切分符,将译文文件切分为段落;步骤
B02
,将得到的段落以标点符号为切分符,切分为句子;步骤
B03
,接着将切分后的句子进行统一的编号
ID
;步骤
B04
,将统一编号后的句子存入译文句子表

5.
根据权利要求1所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S2
包括步骤:步骤
S201
,遍历所有的原文句子非译字符串,并按照原文句子的顺序对原文句子非译字符串进行排列,得到原文句子非译字符串集合;步骤
S202
,遍历所有的译文句子非译字符串,并按照译文句子的顺序对译文句子非译字符串进行排列,得到译文句子非译字符串集合
。6.
根据权利要求1所述的一种自动对齐原文句子与译文句子的方法,其特征在于,步骤
S3
包括步骤:步骤
S301
,对译文句子非译字符串集合和原文句子非译字符串集合进行差分运算;步骤
S302
,根据差分运算的结果,判断为原文句子和译文句子是否已经对齐,如果原文句子和译文句子已经对齐,则将对齐后的译文句子编号
ID
和原文句子编号
ID
记录下来,具体...

【专利技术属性】
技术研发人员:吴志武
申请(专利权)人:杭州译友网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1