【技术实现步骤摘要】
中日词语自动对齐方法和系统
[0001]本专利技术涉及语言翻译处理
,具体涉及一种中日词语自动对齐方法、系统、存储介质和电子设备。
技术介绍
[0002]词语自动对齐,简称为词对齐,其目的在于指明双语平行句对中词之间的对应关系。近年来基于深度神经网络的机器翻译已经成为当今的主流技术,词对齐已经不是翻译模型的必备模块,但是词对齐依旧是研究的热点,由于可以应用在双语词典挖掘,机器翻译的词汇约束解码,错误分析和后编辑上,近年来仍然获得了很多研究者的关注。
[0003]目前,单独为词对齐建模的方法是基于深度模型的词对齐方法的代表之一,其利用多语言预训练语言模型直接进行词对齐的推理,具体而言是先从子词相似度矩阵得到子词对齐结果,然后两个词只要其包含的子词之间存在对齐,则认为词之间也存在对齐关系,
[0004]但是,上述方法至少存在以下缺陷:很容易造成一个词和多个词产生对齐关系,影响最终的对齐结果。
技术实现思路
[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种中日词语自动对齐方法、系统、存储介质和电子设备,解决了容易造成一个词和多个词产生对齐关系的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种中日词语自动对齐方法,包括:
[0010]将原始平行语料进行词语切分,获取词序列;
[0011]将原始平行语料进行子词切分,获取第一子词序列 ...
【技术保护点】
【技术特征摘要】
1.一种中日词语自动对齐方法,其特征在于,包括:将原始平行语料进行词语切分,获取词序列;将原始平行语料进行子词切分,获取第一子词序列;加载预训练好的mBert模型在切分子词后的平行语料上进行参数微调,获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量;进一步切分所述第一子词序列,获取第二子词序列,所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语,且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量;计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。2.如权利要求1所述的中日词语自动对齐方法,其特征在于,所述mBert模型在预训练过程的目标函数L表示如下:L=L
MLM
+L
TLM
+λL
CC
其中,L
MLM
表示基于掩码语言模型的子目标函数:L
MLM
=
‑
logp(E|E
mask
)
‑
logp(F|F
mask
)E
mask
表示中文句子E掩码掉若干子词之后的子词序列;F
mask
为日文句子F掩码掉若干子词之后的子词序列;p(E|E
mask
)表示E
mask
还原为原始句子E的概率;p(F|F
mask
)表示F
mask
还原为原始句子F的概率;L
TLM
表示基于翻译语言模型的子目标函数:L
TLM
=
‑
logp([E;F]|[E
mask
;F
mask
])
‑
logp([F;E]|[F
mask
;E
mask
])[E;F]、[F;E]均表示句对拼接为一个句子,对应不同的拼接顺序;L
CC
表示基于共同汉字监督信号的子目标函数:i,j分别为满足中文子词e
i
和日语子词f
j
为共同汉字的所有双语词对的下标;表示的e
i
在mBERT模型中第k层的上下文表示向量;表示的f
j
在mBERT模型中第k层的上下文表示向量;λ表示权重。3.如权利要求2所述的中日词语自动对齐方法,其特征在于,所述中文子词e
i
和日语子词f
j
为共同汉字的判断原则包括:两者字形完全等同,或者作为健值对存在于预先构建的同源汉字映射字典中;所述同源汉字映射字典中,健为日文汉字,值为中文汉字,且将中日汉字之间一对一、一对多或者多对一的映射关系均拆分为一对一的映射关系。4.如权利要求1~3任一项所述的中日词语自动对齐方法,其特征在于,所述根据所述
子词相似度矩阵,获取任意一对双语词之间的词对齐...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。