中日词语自动对齐方法和系统技术方案

技术编号:34515485 阅读:21 留言:0更新日期:2022-08-13 21:02
本发明专利技术提供一种中日词语自动对齐方法、系统、存储介质和电子设备,涉及语言翻译处理技术领域。本发明专利技术中,省略计算子词对齐过程,计算二次切分获取的第二子词序列中,任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;根据子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。直接从子词相似度矩阵计算出双语之间的词对齐分数,更充分地利用子词相似度矩阵所包含的信息,得到更精准和健壮的词对齐结果。的词对齐结果。的词对齐结果。

【技术实现步骤摘要】
中日词语自动对齐方法和系统


[0001]本专利技术涉及语言翻译处理
,具体涉及一种中日词语自动对齐方法、系统、存储介质和电子设备。

技术介绍

[0002]词语自动对齐,简称为词对齐,其目的在于指明双语平行句对中词之间的对应关系。近年来基于深度神经网络的机器翻译已经成为当今的主流技术,词对齐已经不是翻译模型的必备模块,但是词对齐依旧是研究的热点,由于可以应用在双语词典挖掘,机器翻译的词汇约束解码,错误分析和后编辑上,近年来仍然获得了很多研究者的关注。
[0003]目前,单独为词对齐建模的方法是基于深度模型的词对齐方法的代表之一,其利用多语言预训练语言模型直接进行词对齐的推理,具体而言是先从子词相似度矩阵得到子词对齐结果,然后两个词只要其包含的子词之间存在对齐,则认为词之间也存在对齐关系,
[0004]但是,上述方法至少存在以下缺陷:很容易造成一个词和多个词产生对齐关系,影响最终的对齐结果。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种中日词语自动对齐方法、系统、存储介质和电子设备,解决了容易造成一个词和多个词产生对齐关系的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种中日词语自动对齐方法,包括:
[0010]将原始平行语料进行词语切分,获取词序列;
[0011]将原始平行语料进行子词切分,获取第一子词序列
[0012]加载预训练好的mBert模型在切分子词后的平行语料上进行参数微调,获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量;
[0013]进一步切分所述第一子词序列,获取第二子词序列,所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语,且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量;
[0014]计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;
[0015]根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。
[0016]优选的,所述mBert模型在预训练过程的目标函数L表示如下:
[0017]L=L
MLM
+L
TLM
+λL
CC
[0018]其中,L
MLM
表示基于掩码语言模型的子目标函数:
[0019]L
MLM


logp(E|E
mask
)

logp(F|F
mask
)
[0020]E
mask
表示中文句子E掩码掉若干子词之后的子词序列;
[0021]F
mask
为日文句子F掩码掉若干子词之后的子词序列;
[0022]p(E|E
mask
)表示E
mask
还原为原始句子E的概率;
[0023]p(F|F
mask
)表示F
mask
还原为原始句子F的概率;
[0024]L
TLM
表示基于翻译语言模型的子目标函数:
[0025]L
TLM


logp([E;F]|[E
mask
;F
mask
])

logp([F;E]|[F
mask
;E
mask
])
[0026][E;F]、[F;E]均表示句对拼接为一个句子,对应不同的拼接顺序;
[0027]L
CC
表示基于共同汉字监督信号的子目标函数:
[0028][0029]i,j分别为满足中文子词e
i
和日语子词f
j
为共同汉字的所有双语词对的下标;
[0030]表示的e
i
在mBERT模型中第k层的上下文表示向量;
[0031]表示的f
j
在mBERT模型中第k层的上下文表示向量;
[0032]λ表示权重。
[0033]优选的,所述中文子词e
i
和日语子词f
j
为共同汉字的判断原则包括:两者字形完全等同,或者作为健值对存在于预先构建的同源汉字映射字典中;所述同源汉字映射字典中,健为日文汉字,值为中文汉字,且将中日汉字之间一对一、一对多或者多对一的映射关系均拆分为一对一的映射关系。
[0034]优选的,所述根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系,具体包括:
[0035]S61、根据所述子词相似度矩阵,获取内部概率和外部概率;
[0036][0037][0038]其中,定义中文词E
i
由下标[i1,i2]范围内的子词序列组成,日语词F
j
由下标[j1,j2]范围内的子词序列组成;
[0039]in(i1,i2,j1,j2)表示所述子词相似度矩阵的内部区域,out(i1,i2,j1,j2)表示所述子词相似度矩阵的外部区域;
[0040]α(i1,i2,j1,j2)记作内部概率,这个值越大表示中文词E
i
和日语词F
j
的互译概率越大,反之则越小;
[0041]β(i1,i2,j1,j2)记作外部概率,这个值越大表示中文词E
i
和除F
j
外的其他日语词,或者除E
i
外的其他中文词和日语词F
j
的互译概率越小,反之则越大;
[0042]S62、根据所述内部概率和外部概率,获取任意一对双语词之间的词对齐分数;
[0043]P
ij
=α(i1,i2,j1,j2)β(i1,i2,j1,j2)
[0044]词对齐分数矩阵中的元素P
ij
表示中文词E
i
和日语词F
j
之间的次相似度;
[0045]S63、将所述词对齐分数P
ij
与预设阈值P

进行比较,若P
ij
≥P

,则视为对应的中文词E
i
和日语词F
j
之间存在对齐关系,最终确定原始平行语料的对齐关系。
[0046]优选的,所述将原始平行语料进行子词切分的切分原则包括:中、日文中的所有汉字均独自成为一个子词,其余连续字符串采用Wordpiece算法进行子词切分。
[0047]一种中日词语自动对齐系统,包括:
[0048]词序列获取模块,用于将原始平行语料进行词语切分,获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中日词语自动对齐方法,其特征在于,包括:将原始平行语料进行词语切分,获取词序列;将原始平行语料进行子词切分,获取第一子词序列;加载预训练好的mBert模型在切分子词后的平行语料上进行参数微调,获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量;进一步切分所述第一子词序列,获取第二子词序列,所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语,且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量;计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。2.如权利要求1所述的中日词语自动对齐方法,其特征在于,所述mBert模型在预训练过程的目标函数L表示如下:L=L
MLM
+L
TLM
+λL
CC
其中,L
MLM
表示基于掩码语言模型的子目标函数:L
MLM


logp(E|E
mask
)

logp(F|F
mask
)E
mask
表示中文句子E掩码掉若干子词之后的子词序列;F
mask
为日文句子F掩码掉若干子词之后的子词序列;p(E|E
mask
)表示E
mask
还原为原始句子E的概率;p(F|F
mask
)表示F
mask
还原为原始句子F的概率;L
TLM
表示基于翻译语言模型的子目标函数:L
TLM


logp([E;F]|[E
mask
;F
mask
])

logp([F;E]|[F
mask
;E
mask
])[E;F]、[F;E]均表示句对拼接为一个句子,对应不同的拼接顺序;L
CC
表示基于共同汉字监督信号的子目标函数:i,j分别为满足中文子词e
i
和日语子词f
j
为共同汉字的所有双语词对的下标;表示的e
i
在mBERT模型中第k层的上下文表示向量;表示的f
j
在mBERT模型中第k层的上下文表示向量;λ表示权重。3.如权利要求2所述的中日词语自动对齐方法,其特征在于,所述中文子词e
i
和日语子词f
j
为共同汉字的判断原则包括:两者字形完全等同,或者作为健值对存在于预先构建的同源汉字映射字典中;所述同源汉字映射字典中,健为日文汉字,值为中文汉字,且将中日汉字之间一对一、一对多或者多对一的映射关系均拆分为一对一的映射关系。4.如权利要求1~3任一项所述的中日词语自动对齐方法,其特征在于,所述根据所述
子词相似度矩阵,获取任意一对双语词之间的词对齐...

【专利技术属性】
技术研发人员:李泽中任福继孙晓
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1