一种基于多套语料库的机器翻译模型蒸馏方法技术

技术编号:35728246 阅读:33 留言:0更新日期:2022-11-26 18:27
本发明专利技术提供了一种基于多套语料库的机器翻译模型蒸馏方法。本发明专利技术使用多套语料库巧妙避免了在蒸馏模型训练时还需要进行BeamSearch搜索,因为在训练伊始,教师模型的翻译结果便已经被知晓,所以不必再保留大量中间结果,这极大降低了对内存的消耗。模型蒸馏时,本发明专利技术不再需要边教师模型推理,边训练学生模型,这样显著提升了训练速度。同时,在本发明专利技术所公开的技术方案中,由于多套语料库的存在使得对不同蒸馏方案的实现也变得简单。这些问题的克服使得对机器翻译模型进行蒸馏成为了可能。可能。可能。

【技术实现步骤摘要】
一种基于多套语料库的机器翻译模型蒸馏方法


[0001]本专利技术涉及一种运行高效、多种蒸馏方案可灵活配置、基于多套语料库的机器翻译模型蒸馏方法,属于涉及NLP(NaturalLanguageProcessing,自然语言处理)等的人工智能机器翻译


技术介绍

[0002]机器翻译技术是一种利用计算机将一种自然语言转换为另一种自然语言的技术。近些年随着人工智能技术的发展,机器翻译技术得到长足进步。特别是2017年,由谷歌提出的基于注意力机制的transformer模型很好地解决了序列模型中存在的问题,极大提升了翻译效果。但是随之而来的问题是:模型越来越大,参数规模从1亿直接飙升至1750亿左右,训练这种模型对计算和存储资源提出的要求已经不是普通实验室能够满足和负担。同时,大模型上线之后,在不增加服务资源的情况下,推理速度会变慢,处理大量数据的能力会变低,用户体验会变差,这极大地限制了此类模型的应用。
[0003]一)知识蒸馏框架因此在不损失或者少损失模型翻译效果的前提下,对模型进行适当压缩,是模型在工程部署时必须要面对的问题。20本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,包括以下步骤:步骤1、用组成的语料库训练教师模型,其中,是待翻译序列,长度为I,是s中第i个词,是翻译的目标序列;步骤2、蒸馏系统的教师模型使用BeamSearch算法翻译待翻译序列s,得到输出结果;步骤3、用创建一套新的语料库;步骤4、将用组成的语料库输入蒸馏系统的学生模型,在学生模型中计算损失;步骤5、将用创建的语料库分别输入教师模型以及学生模型,在教师模型中获取Soft

Target,在学生模型中获取当前输入条件下的词典中各词的出现概率,然后基于Soft

Target以及学生模型获取的出现概率计算损失;步骤6、基于步骤4获得的损失以及步骤5获得的损失计算得到总损失,然后完成误差的反向传播,其中,教师模型不参与反向传播;步骤7、完成学生模型的训练后,用学生模型单独作为机器翻译器进行部署,由机器翻译器对实时输入的语料进行推理和翻译,从而获得翻译后的语料。2.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤4中,所述损失的计算方法是:式中:是所有可能的翻译序列的集合,是翻译输出序列,长度为J,是中第个词,在集合中取值;是指示函数,表示当翻译输出序列与翻译目标序列相同时,函数输出1,否则输出0;表示在输入待翻译序列s的条件下,获得翻译序列的概率;表示如果词典V中的第k个词与翻译目标序列的第个词相同则输出1,否则输出0;表示在输入待翻译序列s,翻译序列的前个词已经按前述BeamSearch算法选定的条件下,学生模型在第个时间步长的输出为字典V中的第k个词的概率。3.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤5中,所述...

【专利技术属性】
技术研发人员:朱胜褚佳文何国华
申请(专利权)人:南京万得资讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1