一种通过差分法差异化标注句子的方法技术

技术编号:39664130 阅读:6 留言:0更新日期:2023-12-11 18:27
发明专利技术涉及计算机辅助翻译领域,具体涉及一种通过差分法差异化标注句子的方法

【技术实现步骤摘要】
一种通过差分法差异化标注句子的方法


[0001]本专利技术涉及计算机辅助翻译领域,具体涉及一种通过差分法差异化标注句子的方法


技术介绍

[0002]CAT
软件的功能是建立翻译记忆库并提供参考,既把过去翻译过的原文和译文的句子对存储在数据库中,在翻译新句子时就可以与翻译记忆库的句子对进行比较,如果有相同或相似的句子,调取出来供翻译新句子时参考,这样可以提高翻译的效率和质量

[0003]但是,当前
CAT
软件仍然存在一些不足,比如:在对两个句子存在差异的显示方法时,由于普遍采用的差分方法是把两个不同的句子合并到一个句子中显示,使得用户只能知道修改的位置,却无法直观地辨识修改前后句子结构的差异,导致用户在理解修改后的句子时存在诸多不便


技术实现思路

[0004]为了解决上述
技术介绍
中提到的至少一个问题,本专利技术提出了一种通过差分法差异化标注句子的方法

[0005]一种通过差分法差异化标注句子的方法,包括步骤:
[0006]步骤
S1
,读入需要标注的句子,将句子拆分为字词单元,对字词单元进行排序后,保存入字词单元表;
[0007]其中,字词单元的定义规则为:
[0008]对于存在空格切分符的句子,字词单元定义为两个空格之间的字符串;
[0009]对于没有空格切分符的句子,按照逐个字符拆分句子,字词词单元定义为单个字符;
[0010]具体步骤包括:
[0011]步骤
S101
,读入待差分的句子1和句子2,将句子1和句子2拆分为字词单元;
[0012]步骤
S102
,将句子1和句子2拆分得到的字词单元按照句子原有的顺序进行排序;
[0013]步骤
S103
,对排序后的字词单元以阿拉伯数字进行编号,标记为字词单元的字序,得到句子1字序的字词单元表1和句子2字序的字词单元表2,其中,
[0014]字词单元表1的具体格式为:
[0015]{
句子1的字序,字词单元,状态,句子2中的字序
}
[0016]字词单元表2的具体格式为:
[0017]{
句子2的字序,字词单元,状态,句子1中的字序
}
[0018]步骤
S2
,将排序后得到的字词单元表进行差分运算,并记录差分运算后的结果,具体包括步骤:
[0019]步骤
S201
,导入需要进行差分运算的字词单元表1和字词单元表2,得到字词单元表1和字词单元表2所有排序后的字词单元;
[0020]步骤
S202
,调用差分算法程序对字词单元表1和字词单元表2中的字词单元进行差分运算,并根据差分运算的结果对字词单元表1和字词单元表2的字词单元状态进行记录;
[0021]其记录规则为:
[0022]如果字词单元表1和字词单元表2中字词单元相同,则标记该字符的状态为0,并记录对应地字序:
[0023]如果字词单元表1中字词单元与字词单元表2中的字词单元相同,则在字词单元表1中录入该字词单元在句子2中的字序;
[0024]如果字词单元表2中字词单元与字词单元表2中的字词单元相同,则在字词单元表2中录入该字词单元在句子1中的字序;
[0025]如果字词单元表1和字词单元表2中两个相同字词单元之间,存在相异复数个字词单元,则标记该字符的状态为1;
[0026]如果字词单元表1和字词单元表2中两个相同字词单元之间,一方字词单元表存在相异复数个字词单元,另一方字词单元表不存在字词单元,则标记该字符的状态为
2。
[0027]步骤
S3
,差异化显示不同字词单元的状态,具体包括步骤:
[0028]步骤
S301
,对字词单元表1和字词单元表2进行遍历,获取字词单元表1中所有字词单元的状态和字词单元表2中所有字词单元的状态;
[0029]步骤
S302
,判断获取到的每个字词单元的状态,并根据判断的结果对字词单元进行标记并显示,具体标记显示规则为:
[0030]如果字词单元的状态为0,则标记该字词单元颜色为黑色;
[0031]如果字词单元的状态为1,则标记该字词单元颜色为红色;
[0032]如果字词单元的状态为2,则在存在字词单元的字词单元表中,标记该字词单元颜色为蓝色,并在不存在字词单元的字词单元表中,在相应地位置上插入蓝色表示符

[0033]本专利技术提出了一种通过差分法差异化标注句子的方法,与现有的技术相比,具有以下有益效果:
[0034]本专利技术提出通过对句子进行差分对根据差分结果对句子按照不同的颜色进行差分显示,从而保留了原有句子的结构,并使得用户能够直观地辨别修改前后句子的差异

附图说明
[0035]图1是本专利技术的流程图

[0036]图2是本专利技术实施例中字词单元表结构示意图

具体实施方式
[0037]为了使本专利技术的目的

特征能够更加的明显和易懂,下面通过实施例并结合附图对本技术方案进行详细说明

[0038]如图1所示,一种通过差分法差异化标注句子的方法,由步骤
S1、
步骤
S2
和步骤
S3
组成,
[0039]具体实施过程如下:
[0040]步骤
S1
,读入需要标注的句子,将句子拆分为字词单元,对字词单元进行排序后,保存入字词单元表,
[0041]其中,字词单元的定义规则为:
[0042]对于存在空格切分符的句子,字词单元定义为两个空格之间的字符串;
[0043]对于没有空格切分符的句子,按照逐个字符拆分句子,字词词单元定义为单个字符;
[0044]具体步骤包括:
[0045]步骤
S101
,读入待差分的句子1和句子2,将句子1和句子2拆分为字词单元;
[0046]步骤
S102
,将句子1和句子2拆分得到的字词单元按照句子原有的顺序进行排序;
[0047]步骤
S103
,对排序后的字词单元以阿拉伯数字进行编号,标记为字词单元的字序,得到句子1字序的字词单元表1和句子2字序的字词单元表2,字词单元表的结构如图2所示,其中,
[0048]字词单元表1的具体格式为:
[0049]{
句子1的字序,字词单元,状态,句子2中的字序
}
[0050]字词单元表2的具体格式为:
[0051]{
句子2的字序,字词单元,状态,句子1中的字序
}
[0052]步骤
S2
,将排序后得到的字词单元表进行差分运算,并记录差本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种通过差分法差异化标注句子的方法,其特征在于,包括步骤:步骤
S1
,读入需要标注的句子,将句子拆分为字词单元,对字词单元进行排序后,保存入字词单元表;步骤
S2
,将排序后得到的字词单元表进行差分运算,并记录差分运算后的结果;步骤
S3
,差异化显示不同字词单元的状态
。2.
根据权利要求1所述的一种通过差分法差异化标注句子的方法,其特征在于,步骤
S1
中所述的字词单元,其定义规则为:对于存在空格切分符的句子,字词单元定义为两个空格之间的字符串;对于没有空格切分符的句子,按照逐个字符拆分句子,字词词单元定义为单个字符
。3.
根据权利要求1所述的一种通过差分法差异化标注句子的方法,其特征在于,步骤
S1
包括步骤:步骤
S101
,读入待差分的句子1和句子2,将句子1和句子2拆分为字词单元;步骤
S102
,将句子1和句子2拆分得到的字词单元按照句子原有的顺序进行排序;步骤
S103
,对排序后的字词单元以阿拉伯数字进行编号,标记为字词单元的字序,得到句子1字序的字词单元表1和句子2字序的字词单元表
2。4.
根据权利要求3所述的一种通过差分法差异化标注句子的方法,其特征在于,步骤
S103
中所述的字词单元表1和字词单元表2,其中,字词单元表1的具体格式为:
{
句子1的字序,字词单元,状态,句子2中的字序
}
字词单元表2的具体格式为:
{
句子2的字序,字词单元,状态,句子1中的字序
}。5.
根据权利要求1所述的一种通过差分法差异化标注句子的方法,其特征在于,步骤
S2
包括步骤:步骤
S201
,导入需要进行差分运算的字词单元表1和字词单元表2,得到字词单元表1和字词单元表2所有排...

【专利技术属性】
技术研发人员:吴志武
申请(专利权)人:杭州译友网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1