【技术实现步骤摘要】
基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
[0001]本专利技术属于电数据处理中的自然语言翻译
,特别涉及一种基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法。
技术介绍
[0002]神经机器翻译是一种利用大量的翻译实例并结合人工神经网络来学习源语言与目标语言之间概率分布的技术,但是蒙汉平行语料库建设还不完善,属于低资源语言,并且传统蒙古文的构词方式复杂,低频词汇较多,直接利用神经网络翻译效果较差,无法直接将其他具有丰富预料的翻译任务上的翻译方法应用到蒙汉翻译中。大量研究表明,句法信息具有改进这些模型的功能。因此,如何利用语料中的先验知识并合理地嵌入到神经机器翻译中是一个具有重要的学术研究价值和广阔的应用前景的问题。
[0003]机器翻译现有的各种方法都是结合了主流NMT和传统SMT模型的优点。通常,先验知识用于增强NMT,例如离散字典[T.Luong,I.Sutskever,Q.Le,O.Vinyals,and W.Zaremba.Addressing the rare word problem ...
【技术保护点】
【技术特征摘要】
1.基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法,其特征在于,包括如下步骤:步骤1,解析蒙汉平行语料库中的汉语语料的句法关系,根据句法关系构建句法量化矩阵;步骤2,以汉语语料句子中的标记为节点,以句子中的标记之间的关系为边,构建句法图,根据所述句法图,构造句法依赖矩阵;步骤3,将所述句法依赖矩阵和所述句法量化矩阵注入到Transformer翻译模型的自注意网络中,结合蒙汉平行语料库中的蒙语语料进行训练;步骤4,训练结束得到蒙汉神经机器翻译模型,利用该模型进行蒙汉翻译。2.根据权利要求1所述基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法,其特征在于,所述步骤1,对汉语语料和蒙语语料进行数据清洗和分词处理,然后通过外部句法解析器Stanford CoreNLP生成汉语语料的句法关系,从而构建单词之间的标记关系。3.根据权利要求2所述基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法,其特征在于,所述步骤1,将数据清洗后的汉语语料和蒙语语料的顺序随机重排,并将数字和英文字母全部拆散,对汉语句子按单字切分,对蒙语句子按空格切分。4.根据权利要求1所述基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法,其特征在于,所述步骤1,句法量化矩阵的构建方法为:对于长度为I的输入句子X,通过外部句法解析器Stanford CoreNLP提取依赖树T,然后根据依赖树T计算单词级依赖距离,依赖距离定义为树上一个单词到另一个单词的路径长度,两个直接连接的单词之间的依赖距离赋值为1;根据原始词序遍历每个单词,并同时计算当前遍历的单词与各单词之间的依赖距离;结合所有依赖距离序列d
i
,通过高斯分布导出句法量化矩阵矩阵的每一行表示每个词与各单词的句法依赖程度。5.根据权利要求4所述基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法,其特征在于,所述步骤2,利用Stanford CoreNLP中的API构建句法依赖矩阵,方法如下:使用Stanford CoreNLP对句子进行依赖句法分析,先调用word_tokenize()函数对句子进行分词,然后调用dependency_parse()返回每个分词之间的依存关系,分析结果为三元组构成的列表;最后将依赖关系分派到单字级别,构建句法依赖矩阵,矩阵中有依赖关系(除了ROOT关系)的两个单字对应的坐标设置为1,否则设置为0。6.根据权利要求4所述基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法,其特征在于,所述步骤3,句法依赖矩阵的注入方法如下:在多头自注意力的基础上利用mask机制生成一个额外的句法相关表征作为原表征的补充,通过句法感知屏蔽强化句法相关标记的表达,引入句法图节点随机删除机制,使其自适应地引入多个注意力表示,并通过调整句法图实现动态多句法感知的自注意表示,利用融合策略来整合其自注意表示,并求出最终表示;句法量化矩阵的注入方法如下:将句法量化矩阵D
s
和输入句子X的源注释序列H均作为注意力网络中N个注意头的输入,第l个编码器层的查询向量、键向量和值向量计算如下:
其中是由第l个编码器层的句子注释H
l
线性投影的三个向量,表示权重;d
k
=d
model
/H,H0为初始源注释序列(l=0),d
model
表示模型向量维数;然后计算每个查询与所有键之间的点积,并除以得到对齐分数S
l
,S
l
表示在注释当前单词时,应该对其他单词进行多少关注;在对齐分数之后,显式地对其施加句法约束,即,逐点加权句法量化矩阵D
s
,并强制模型关注单词之间的句法依赖关系,所依赖的公式如下:,并强制模型关注单词之间的句法依赖关系,所依赖的公式如下:,并强制模型关注单词之间的句法依赖关系,所依赖的公式如下:其中,K
lT
表示K
l
的转置,是基于单词依赖分布的对齐分数,是的第i行,表示基于第i个单词X
i
的依赖分布的缩放对齐分数,σ是关于经验值的高斯方差,即,通过量化单词之间的依赖关系,将其重新加权的对齐分数转化为高斯概率密度的值;是D
s
的第i行j列,GaussDist(d
ij
)作为的第(i,j)项,是一个方差σ2和输入d
ij
的高斯分布,d
ij
是单词对X
i
和X
j
的依赖距离;的依赖距离;在此基础上,量化后的注意力权重通过softmax函数进行归一化,结果为Z
l
,Z
l
表示单词之间的对应关系;O...
【专利技术属性】
技术研发人员:仁庆道尔吉,庞子豫,李雷孝,吉亚图,石宝,
申请(专利权)人:内蒙古工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。