一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法技术

技术编号:27365496 阅读:16 留言:0更新日期:2021-02-19 13:49
一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,对汉语进行分词,然后构建蒙汉双语词典,并获取蒙汉双语词向量矩阵;利用MAML方法初始化一个局部最优的任务参数,即蒙汉翻译中的模型初始化参数;基于所述模型初始化参数,采用可微分神经机搭建蒙汉翻译模型。本发明专利技术使用可微分神经机以及模型无关元学习策略,其中模型无关元学习策略用于初始化参数,基于RNN与LSTM进行重新构建,借助内存管理机制以及选择性的读取来进行长时语义的处理,进一步促进序列问题的解决,提高翻译性能。尤其是针对于小语种语料中的数据稀疏问题和生成词典过小的问题,以及翻译过程中的语义信息匮乏问题等,可进一步完善蒙汉机器翻译系统,实现较好的翻译性能。实现较好的翻译性能。实现较好的翻译性能。

【技术实现步骤摘要】
一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法


[0001]本专利技术属于深度学习机器翻译
,特别涉及一种基于模型无关元学习策略(Model-Agnostic Meta-Learning,MAML)及可微分神经机(DNC)的蒙汉机器翻译方法。

技术介绍

[0002]当前深度学习领域不断的发展壮大,自然语言处理领域也得到了长足的发展,尤其是在人工智能时代下,机器翻译在互联网领域的发展中起着越来越重要的作用。
[0003]然而,在自然语言处理领域所暴露出来的问题却是一直存在的,尽管众多的科学家不断努力为提高译文质量而不懈努力,但出现的问题还是不可避免,如歧义词处理、未登录词的判断表示、语义信息的匮乏、双语对应词向量的误差以及语料的匮乏问题等等,这些问题都会大大影响机器翻译的质量。截止目前,国外很多的知名大学以及研究院都在努力解决这些问题,也提出了诸多的方案并实施,但在目前看来,这些解决方法大多都是解决某一方面的问题,而不是在全局上来解决这些问题。在深度学习的不断推动下,机器翻译水平较之前基于统计机器翻译已有了长足的进步,但一直以来存在的歧义问题、未登录词问题以及语义匮乏问题等并没有太好的解决办法。
[0004]目前,基于注意力机制的机器翻译已成为了主流模型,实现了目前的最优成绩,但是在根本上来说其并没有深入解决问题,只能在一定程度上缓解。
[0005]最新的研究显示,预训练模型在当前的机器翻译领域占据了主要的地位,各大公司以及研究院提出的预训练模型层出不穷,在一定方面上的确解决了统计机器翻译所出现的问题,但还是没有一个完全解决翻译问题的系统出现,因此在粗译的前提下,如何做好细译的工作是目前的工作重点。尤其针对于蒙古语这种低资源语种,语义信息的缺乏以及词向量的匮乏更需要进行细致处理。

技术实现思路

[0006]为了克服上述现有技术的缺点,进一步提高机器翻译的性能,本专利技术的目的在于提供一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,使用可微分神经机(DNC)以及模型无关元学习策略(MAML),其中模型无关元学习策略用于初始化参数,基于RNN与LSTM进行重新构建,借助内存管理机制以及选择性的读取来进行长时语义的处理,进一步促进序列问题的解决,提高翻译性能。尤其是针对于小语种语料中的数据稀疏问题和生成词典过小的问题,以及翻译过程中的语义信息匮乏问题等,可进一步完善蒙汉机器翻译系统,实现较好的翻译性能。
[0007]为了实现上述目的,本专利技术采用的技术方案是:
[0008]一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,包括:
[0009]步骤1,对汉语进行分词,然后构建蒙汉双语词典,并获取蒙汉双语词向量矩阵;
[0010]步骤2,利用MAML方法初始化一个局部最优的任务参数,即蒙汉翻译中的模型初始
化参数;
[0011]步骤3,基于所述模型初始化参数,采用可微分神经机搭建蒙汉翻译模型。
[0012]所述步骤1中,利用结巴汉语分词方法,采用精确模式进行汉语语料的分词,对待处理语句,提取关键词,进行词性标注处理,并加载停用词,实现分词处理。
[0013]所述步骤1中,分词完毕后,采用fast_align对蒙汉语料进行处理,首先构建蒙汉双语词典,流程如下:
[0014]1)对蒙汉语料进行合并处理,在每行中合并源语言语句及其目标语言语句,由带有前导和尾随空格的符号分隔;
[0015]2)利用fast_align工具进行蒙汉双语对齐操作;
[0016]3)利用对齐的蒙汉双语料构建出蒙汉双语词典。
[0017]在蒙汉双语词典构建完成后,采用fast-text工具中的skip-gram模型生成蒙汉双语词向量,即词嵌入向量,流程如下:
[0018]1)利用skip-gram模型在输入层对蒙汉双语词典进行处理,用当前位置的词预测前后c个词,获得长时信息,其预测结果即根据当前词推理上下文c个窗口内的词的概率,表示为示为表示当前位置t的单词,表示在t位置前后c个连续的词;
[0019]2)通过聚合将每个位置的词向量相加,即
[0020]其中T表示中心词的位置,C表示当前词的前后c个词,即前后窗口的大小;
[0021]3)采用Huffman Tree编码输出层的词典,使其按照频率高低由树的根向叶子节点分布;
[0022]4)对词向量相加结果取对数w指当前位置单词;
[0023]5)对l求偏导,使用梯度下降算法逐步更新权重,训练结束后的即词向量矩阵,将所有词的向量进行相应整合,即对每个词的上下文向量进行整理收集,最终得到蒙汉双语词向量矩阵。
[0024]所述步骤2的具体步骤如下:
[0025]1)借助部分高资源语言任务进行初始训练,任务分布记为p(τ);
[0026]2)初始化梯度下降的学习率α,β;
[0027]3)根据前期实验记录或者经验,随机初始化一个参数θ,并取样τ
i
表示编号为i的任务,τ
i
∈p(τ),p(τ)为总任务分布;
[0028]4)对其中每一个任务τ
i
,计算其梯度其中为损失函数为梯度计算符号;
[0029]5)进行一次更新梯度,得θ'
i
是梯度更新后的新参数;
[0030]6)当p(τ)中的每个任务τ
i
执行完毕后,进行第二次的梯度更新,也即最终的梯度更新,公式如下:此时的θ
f
即最终进行梯度下降得到的局部最优的任务参数。
[0031]所述步骤3中,通过反复模拟训练以及微调,得到最终的翻译模型。
[0032]所述可微分神经机使用向量来存储记忆,存储器矩阵的每行对应于不同的记忆,其处理器使用接口向量in
t
控制一个写头控制和多个读头控制与记忆体交互,记忆矩阵的1行向量表示1组记忆,N行表示记忆矩阵最多可以保有N组记忆,在每个时间步可微分神经机接受上一时刻读头信息流与当前时刻外部输入信息流组成广义可微分神经机外部输入信息流,经过处理发至隐藏状态,隐藏状态生成输出向量和接口向量,接口向量控制读写头,通过读写机制与外存储矩阵交互,生成当前时刻的写信息,并更新矩阵获得当前时刻的读信息,读信息与输出向量线性组合生成此时刻最终输出向量ou
t
,其中记忆体由记忆组成,记忆体的存储形式为记忆矩阵。
[0033]所述处理器由若干个神经网络组成,负责和输入、输出交互,其中输入in
t
是由读向量r和输入向量x
t
连接得到的单个控制器,即处理器输入向量,其中表示在上一时刻记忆矩阵中的读向量集合,d表示集合的组数;
[0034]利用所得到的向量,先写再读,进行记忆体的读写操作,从而更新记忆体的内容,其中写操作如下:
[0035]M
f
[i,j]=M[i,j](1-w
w...

【技术保护点】

【技术特征摘要】
1.一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,包括:步骤1,对汉语进行分词,然后构建蒙汉双语词典,并获取蒙汉双语词向量矩阵;步骤2,利用模型无关元学习策略方法初始化一个局部最优的任务参数,即蒙汉翻译中的模型初始化参数;步骤3,基于所述模型初始化参数,采用可微分神经机搭建蒙汉翻译模型。2.根据权利要求1所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述步骤1中,利用结巴汉语分词方法,采用精确模式进行汉语语料的分词,对待处理语句,提取关键词,进行词性标注处理,并加载停用词,实现分词处理。3.根据权利要求1所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述步骤1中,分词完毕后,采用fast_align对蒙汉语料进行处理,首先构建蒙汉双语词典,流程如下:1)对蒙汉语料进行合并处理,在每行中合并源语言语句及其目标语言语句,由带有前导和尾随空格的符号分隔;2)利用fast_align工具进行蒙汉双语对齐操作;3)利用对齐的蒙汉双语料构建出蒙汉双语词典。4.根据权利要求1或3所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,在蒙汉双语词典构建完成后,采用fast-text工具中的skip-gram模型生成蒙汉双语词向量,即词嵌入向量,流程如下:1)利用skip-gram模型在输入层对蒙汉双语词典进行处理,用当前位置的词预测前后c个词,获得长时信息,其预测结果即根据当前词推理上下文c个窗口内的词的概率,表示为w
t
表示当前位置t的单词,w
t
±
c
表示在t位置前后c个连续的词;2)通过聚合将每个位置的词向量相加,即其中T表示中心词的位置,C表示当前词的前后c个词,即前后窗口的大小;3)采用Huffman Tree编码输出层的词典,使其按照频率高低由树的根向叶子节点分布;4)对词向量相加结果取对数w指当前位置单词;5)对l求偏导,使用梯度下降算法逐步更新权重,训练结束后的w
t
±
c
即词向量矩阵,将所有词的向量进行相应整合,即对每个词的上下文向量进行整理收集,最终得到蒙汉双语词向量矩阵。5.根据权利要求1所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述步骤2的具体步骤如下:1)借助部分高资源语言任务进行初始训练,任务分布记为p(τ);2)初始化梯度下降的学习率α,β;3)根据前期实验记录或者经验,随机初始化一个参数θ,并取样τ
i
表示编号为i的任务,τ
i
∈p(τ),p(τ)为总任务分布;
4)对其中每一个任务τ
i
,计算其梯度其中为损失函数,为梯度计算符号;5)进行一次更新梯度,得θ

i
是梯度更新后的新参数;6)当p(τ)中的每个任务τ
i
执行完毕后,进行第二次的梯度更新,也即最终的梯度更新,公式如下:此时的θ
f
即最终进行梯度下降得到的局部最优的任务参数。6.根据权利要求1所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述步骤3中,通过反复模拟训练以及微调,得到最终的翻译模型。7.根据权利要求1或6所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述可微分神经机使用向量来存储记忆,存储器矩阵的每行对应于不同的记忆,其处理器使用接口向量in
t
控制一个写头控制和多个读头控制与记忆体交互,记忆矩阵的1行向量表示1组记忆,N行表示记忆矩阵最多可以保有N组记忆,在每个时间步可微分神经机接受上一时刻读头信息流与当前...

【专利技术属性】
技术研发人员:苏依拉赵旭薛媛卞乐乐范婷婷仁庆道尔吉
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1