【技术实现步骤摘要】
一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法
[0001]本专利技术属于深度学习机器翻译
,特别涉及一种基于模型无关元学习策略(Model-Agnostic Meta-Learning,MAML)及可微分神经机(DNC)的蒙汉机器翻译方法。
技术介绍
[0002]当前深度学习领域不断的发展壮大,自然语言处理领域也得到了长足的发展,尤其是在人工智能时代下,机器翻译在互联网领域的发展中起着越来越重要的作用。
[0003]然而,在自然语言处理领域所暴露出来的问题却是一直存在的,尽管众多的科学家不断努力为提高译文质量而不懈努力,但出现的问题还是不可避免,如歧义词处理、未登录词的判断表示、语义信息的匮乏、双语对应词向量的误差以及语料的匮乏问题等等,这些问题都会大大影响机器翻译的质量。截止目前,国外很多的知名大学以及研究院都在努力解决这些问题,也提出了诸多的方案并实施,但在目前看来,这些解决方法大多都是解决某一方面的问题,而不是在全局上来解决这些问题。在深度学习的不断推动下,机器翻译水平较之前基于统计机器翻译已有了长足的进步,但一直以来存在的歧义问题、未登录词问题以及语义匮乏问题等并没有太好的解决办法。
[0004]目前,基于注意力机制的机器翻译已成为了主流模型,实现了目前的最优成绩,但是在根本上来说其并没有深入解决问题,只能在一定程度上缓解。
[0005]最新的研究显示,预训练模型在当前的机器翻译领域占据了主要的地位,各大公司以及研究院提出的预训练模型层出不穷,在一定方面上的确解决了
【技术保护点】
【技术特征摘要】
1.一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,包括:步骤1,对汉语进行分词,然后构建蒙汉双语词典,并获取蒙汉双语词向量矩阵;步骤2,利用模型无关元学习策略方法初始化一个局部最优的任务参数,即蒙汉翻译中的模型初始化参数;步骤3,基于所述模型初始化参数,采用可微分神经机搭建蒙汉翻译模型。2.根据权利要求1所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述步骤1中,利用结巴汉语分词方法,采用精确模式进行汉语语料的分词,对待处理语句,提取关键词,进行词性标注处理,并加载停用词,实现分词处理。3.根据权利要求1所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述步骤1中,分词完毕后,采用fast_align对蒙汉语料进行处理,首先构建蒙汉双语词典,流程如下:1)对蒙汉语料进行合并处理,在每行中合并源语言语句及其目标语言语句,由带有前导和尾随空格的符号分隔;2)利用fast_align工具进行蒙汉双语对齐操作;3)利用对齐的蒙汉双语料构建出蒙汉双语词典。4.根据权利要求1或3所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,在蒙汉双语词典构建完成后,采用fast-text工具中的skip-gram模型生成蒙汉双语词向量,即词嵌入向量,流程如下:1)利用skip-gram模型在输入层对蒙汉双语词典进行处理,用当前位置的词预测前后c个词,获得长时信息,其预测结果即根据当前词推理上下文c个窗口内的词的概率,表示为w
t
表示当前位置t的单词,w
t
±
c
表示在t位置前后c个连续的词;2)通过聚合将每个位置的词向量相加,即其中T表示中心词的位置,C表示当前词的前后c个词,即前后窗口的大小;3)采用Huffman Tree编码输出层的词典,使其按照频率高低由树的根向叶子节点分布;4)对词向量相加结果取对数w指当前位置单词;5)对l求偏导,使用梯度下降算法逐步更新权重,训练结束后的w
t
±
c
即词向量矩阵,将所有词的向量进行相应整合,即对每个词的上下文向量进行整理收集,最终得到蒙汉双语词向量矩阵。5.根据权利要求1所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述步骤2的具体步骤如下:1)借助部分高资源语言任务进行初始训练,任务分布记为p(τ);2)初始化梯度下降的学习率α,β;3)根据前期实验记录或者经验,随机初始化一个参数θ,并取样τ
i
表示编号为i的任务,τ
i
∈p(τ),p(τ)为总任务分布;
4)对其中每一个任务τ
i
,计算其梯度其中为损失函数,为梯度计算符号;5)进行一次更新梯度,得θ
′
i
是梯度更新后的新参数;6)当p(τ)中的每个任务τ
i
执行完毕后,进行第二次的梯度更新,也即最终的梯度更新,公式如下:此时的θ
f
即最终进行梯度下降得到的局部最优的任务参数。6.根据权利要求1所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述步骤3中,通过反复模拟训练以及微调,得到最终的翻译模型。7.根据权利要求1或6所述基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法,其特征在于,所述可微分神经机使用向量来存储记忆,存储器矩阵的每行对应于不同的记忆,其处理器使用接口向量in
t
控制一个写头控制和多个读头控制与记忆体交互,记忆矩阵的1行向量表示1组记忆,N行表示记忆矩阵最多可以保有N组记忆,在每个时间步可微分神经机接受上一时刻读头信息流与当前...
【专利技术属性】
技术研发人员:苏依拉,赵旭,薛媛,卞乐乐,范婷婷,仁庆道尔吉,
申请(专利权)人:内蒙古工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。