基于知识蒸馏的轻量级神经机器翻译系统构建方法技术方案

技术编号：38128665 阅读：9 留言：0更新日期：2023-07-08 09:34

本发明专利技术公开一种基于知识蒸馏的轻量级神经机器翻译系统构建方法，步骤为：获取训练神经机器翻译所需的数据集并进行清洗；采用大模型作为知识蒸馏必须的教师模型，采用轻量级Transformer模型作为学生模型；使用数据集训练教师模型；使用训练好的教师模型解码训练数据，重新构造训练数据；训练学生模型；将学生模型作为轻量级神经机器翻译模型部署在服务器上，并开发前端Html界面、使用Tornado框架搭建后端处理程序，构建整个机器翻译系统。本发明专利技术减少了知识蒸馏过程中的性能损失，减少学生模型在蒸馏过程中的性能损耗，提升学生模型的鲁棒性，不会带来对抗训练难以接受的高额训练代价，可被运用到需要蒸馏小模型的任务中。可被运用到需要蒸馏小模型的任务中。可被运用到需要蒸馏小模型的任务中。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识蒸馏的轻量级神经机器翻译系统构建方法

[0001]本专利技术涉及一种压缩神经机器翻译模型的技术，具体为基于知识蒸馏的轻量级神经机器翻译系统构建方法。

技术介绍

[0002]现实中，为了获得较高的翻译质量，开发者往往需要使用参数量上亿级别的大型神经机器翻译模型，甚至还会利用集成学习(Ensemble)等手段同时运行多个大型模型进行翻译。在云计算高速发展的今天，这些大型模型的训练、运行可以在高性能GPU服务器上完成，但是对于一些需要离线使用机器翻译的用户来说，将大型神经机器翻译系统部署在用户终端等推断设备上是非常困难的，原因在于这些设备几乎不具备高性能GPU服务器的并行计算能力，最终导致神经机器翻译系统在用户终端推断设备上运行缓慢甚至无法运行。由此引出了神经机器翻译的推断设备受限问题。
[0003]对于神经机器翻译的推断设备受限问题，最直接也最通用的解决方案是使用小模型部署到推断设备上。由于部署的需求，因此需要小模型具有体积小、速度快、翻译质量较高、鲁棒性较好的特点。小模型的获取通常使用一些模型压缩技术来获得比从头训练小模型更强的翻译性能，包括模型剪枝、模型量化、知识蒸馏、参数共享等。

技术实现思路

[0004]针对现有技术中面对推断设备受限时神经机器翻译解码效率低下等不足，本专利技术要解决的技术问题是提供一种压缩神经机器翻译模型的基于知识蒸馏的轻量级神经机器翻译系统构建方法。
[0005]为解决上述技术问题，本专利技术采用的技术方案是：
[0006]本专利技术提供一种基于...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的轻量级神经机器翻译系统构建方法，其特征在于包括以下步骤：1)在网络上获取开源的训练神经机器翻译所需的数据集，并对该数据集进行清洗；2)采用参数量大、结构复杂的大模型作为知识蒸馏必须的教师模型，采用参数量少、结构简单的轻量级Transformer模型作为学生模型；3)使用步骤1)中获得开源数据集训练教师模型；4)使用训练好的教师模型解码训练数据，将清洗后的数据集中的源语作为训练输入，将解码出来的译文作为训练目标，重新构造训练数据；5)使用cutoff对抗训练方法和步骤4)构造的训练数据训练学生模型，实现知识蒸馏；6)将步骤5)蒸馏得到的学生模型作为轻量级神经机器翻译模型部署在服务器上，并开发前端Html界面、使用Tornado框架搭建后端处理程序，构建整个机器翻译系统。2.按权利要求1所述的基于知识蒸馏的轻量级神经机器翻译系统构建方法，其特征在于：步骤2)中，使用神经机器翻译常用的大模型Transformer DLCL35、Dense768作为教师模型的结构，使用轻量级的Transformer 3
‑
1、6
‑
1作为学生模型的结构。3.按权利要求1所述的基于知识蒸馏的轻量级神经机器翻译系统构建方法，其特征在于：步骤5)中，使用cutoff对抗训练方法和步骤4)构造的训练数据训练学生模型，具体步骤为：501)去掉步骤4)构造的新的数据集...

【专利技术属性】
技术研发人员：杨迪，王之光，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人