一种基于知识图谱的蒙汉非自回归机器翻译方法技术

技术编号:30822831 阅读:34 留言:0更新日期:2021-11-18 12:09
一种基于知识图谱的蒙汉非自回归机器翻译方法,通过知识图谱三元组构建蒙汉双语命名实体语义网,并基于多特征对齐构建命名实体词典;然后借助知识图谱三元组表示蒙古语稀有词组成分布并进行稀有词切分,过程中进行交互式增强生成对抗训练,并添加交互信息指导生成对抗,得到全面的稀有词知识图谱三元组集;对经过处理之后的蒙汉平行语料库进行知识蒸馏,在教师模型通过知识蒸馏为学生模型提取语料时,构建蒙汉平行语料库的知识图谱;在进行非自回归机器翻译时,利用知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵,并进行解码信息润色。本发明专利技术可在保证翻译速率提高的前提下,提高机器翻译的译文质量。提高机器翻译的译文质量。提高机器翻译的译文质量。

【技术实现步骤摘要】
一种基于知识图谱的蒙汉非自回归机器翻译方法


[0001]本专利技术属于机器翻译
,特别涉及一种基于知识图谱的蒙汉非自回归机器翻译方法。

技术介绍

[0002]机器翻译(MT)是利用计算机将一种语言自动翻译到另外一种语言,且转换过程中保持含义不变。现有的机器翻译模型研究多是以自回归机器翻译模型(AT)进行研究,比如现如今研究热点模型Transformer,该模型的出现以其高效的编码效率,多层的注意力效果叠加使的翻译质量得到大幅度提升。但是Transformer模型本身存在着:Exposure Bias(错误传递性)和解码器不能并行解码情况,这大大浪费了GPU的计算资源,使的翻译效果达不到研究者的理想状态。
[0003]考虑到现有的自回归机器翻译模型不能充分的利用GPU的计算能力,基于此提出利用非自回归机器翻译模型(NAT),它能充分的利用GPU的计算能力,使翻译的速度效率提高7.2倍左右。但是非自回归机器翻译模型本身也因为过快的翻译,引发了连续性重复翻译和漏译现象,这是因为在解码时并行解码,使得目标序列之间纯独立性并行解码,而缺失了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,包括如下步骤:步骤1,通过知识图谱三元组构建蒙汉双语命名实体语义网,其中所述命名实体为未登录词一部分且被知识图谱三元组表示,结合蒙汉双语命名实体的互信息特征、音译特征和同现特征进行多特征对齐,构建命名实体词典;步骤2,利用现有蒙古语词干表和蒙古语词缀表,借助知识图谱三元组来表示蒙古语稀有词组成分布,即将知识图谱三元组(subject,relate,object)变成(词干,词缀,词),利用Transformer

CRF算法进行稀有词切分,在稀有词切分与知识图谱稀有词生成过程中进行交互式增强生成对抗训练,并添加交互信息Flag指导生成对抗,最终通过生成对抗Softmax输出值0或者1配合Flag取值

1或者1来反向指导稀有词知识图谱三元组的构建,得到全面的稀有词知识图谱三元组集;步骤3,对经过步骤1和步骤2处理之后的蒙汉平行语料库进行知识蒸馏,在教师模型通过知识蒸馏为学生模型提取语料时,构建蒙汉平行语料库的知识图谱;步骤4,在进行非自回归机器翻译时,利用步骤3构建的知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵,先由源语言嵌入线性映射,然后经投影矩阵到目标嵌入层,转换成解码器输入信息作为解码器润色层模块的润色来源,在润色层模块中将映射得到的信息和传递层模块输出信息融合,由迭代回泽模型进行翻译来反向指导隐藏状态的属性,进行最后的解码信息润色。2.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤1中,蒙汉双语命名实体语义网是利用知识图谱对蒙汉双语命名实体构建形成的以命名实体为中心的上下文语义网。3.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤1中,多特征对齐是融合命名实体互信息特征、音译特征和同现特征并对不同特征进行权重分配,得到蒙汉命名实体对齐的相似程度,融合后特征相似度Score
all
(α,β)的计算公式如下:其中,α表示汉语命名实体,β表示蒙古语命名实体,λ
j
表示第j个特征对应的权重,Score
j
(α,β)表示α与β第j个特征的相似度,包括互信息特征相似度Score
m
(α,β)、音译特征相似度Score
translite
(α,β)和共现特征相似度Score
co

occu
(α,β)。4.根据权利要求3所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述互信息特征相似度Score
m
(α,β)的计算公式如下:(α,β)的计算公式如下:其中,I(A
sou
,A
tar
)表示A
sou
,A
tar
的互信息,A
sou
,A
tar
分别表示蒙古语和汉语片段,p(A
sou
,A
tar
)表示A
sou
,A
tar
在上下文中共现概率,p(A
sou
),p(A
tar
)分别表示A
sou
,A
tar
的独立概率;N表
示平行语料中总句对数,r(A
sou
,A
tar
)表示A
sou
,A
tar
在语料库同时出现的句对数,r(A
sou
),r(A
tar
)分别表示A
sou
,A
tar
出现的句对数;所述音译特征相似度Score
translite
(α,β)的计算公式如下:其中,α
i
∈(α1,α2,...,α
n
),(α1,α2,...,α
n
)是α转换得到的字序列,β
j
∈(β1,β2,...,β
m
),(β1,β2,...,β
m
)是β转换得到的音节序列,i,j分别表示转换后序列中的位置序号,n,m分别表示字序列和音节序列的长度,p(α
i

j
0表示在条件β
j
下α
i
的概率,p(β
j

i
)表示在条件α
i
下β
j
的概率;所述共现特征相似度Score
co

occu
(α,β)的计算公式如下:其中,Num(α,β)表示α和β在平行语料中出现的次数,Num(α)表示α在汉语语料中出现的次数,Num(β)表示β在蒙古语语料中出现次数。5.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤2中,将利用Transformer

CRF算法进行稀有词切分看作生成器G,...

【专利技术属性】
技术研发人员:苏依拉程永坤王涵张妍彤仁庆道尔吉吉亚图
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1