【技术实现步骤摘要】
翻译模型压缩方法、装置、移动终端及存储介质
[0001]本申请涉及计算机
,尤其涉及一种翻译模型压缩方法、装置、移动终端及存储介质。
技术介绍
[0002]机器翻译指在无人为介入或少人为介入的条件下,将输入的源语言转换为目标语言。现有的机器翻译包括基于规则的机器翻译、基于统计的机器翻译和神经网络机器翻译(Neural Machine Translation,NMT)。NMT的翻译效果远好于前两种机器翻译,但NMT模型的翻译效果与模型自身的参数量成指数相关,翻译效果好的NMT模型往往会受到硬件瓶颈,难以正常加载与使用。
[0003]针对上述问题,现有技术往往采用蒸馏、量化和模型裁剪等方法压缩NMT模型,在可接受翻译效果下降的前提下减少模型的参数量,从而避免模型加载和使用中的问题。但是,现有知识蒸馏只考虑将教师翻译模型压缩得到学生翻译模型,学生翻译模型只是教师翻译模型的简化,鲁棒性较差。
技术实现思路
[0004]本申请实施例提供了一种翻译模型压缩方法、装置、移动终端及存储介质。由于本申请提供的翻译 ...
【技术保护点】
【技术特征摘要】
1.一种翻译模型压缩方法,其特征在于,所述方法包括:根据训练语料训练教师机器学习模型获取教师翻译模型;根据所述训练语料训练学生机器学习模型获取学生翻译模型;将所述训练语料输入所述教师翻译模型获取第一输出结果;将所述训练语料输入所述学生翻译模型获取第二输出结果;获取所述第一输出结果和所述第二输出结果的分布距离;根据预先设置的损失函数对所述第一输出结果、所述第二输出结果和所述分布距离进行损失计算获取损失计算结果并对所述学生翻译模型进行参数调整获取第一翻译模型压缩结果。2.根据权利要求1所述的方法,其特征在于,所述教师翻译模型包括第一输入编码层,所述学生翻译模型包括第二输入编码层,所述根据所述训练语料训练学生机器学习模型获取学生翻译模型之后,所述将所述训练语料输入所述教师翻译模型获取第一输出结果之前,还包括:根据所述第一输入编码层获取原始词表;根据子词分词原理对所述原始词表进行重构处理得到处理后词表;根据所述处理后词表对所述学生翻译模型中的第二输入编码层进行更新。3.根据权利要求2所述的方法,其特征在于,所述根据子词分词原理对所述原始词表进行重构处理得到处理后词表包括:获取所述原始词表中的子词在所述训练语料中的句子分布贡献度;根据所述句子分布贡献度对所述子词进行筛选并重构处理得到所述处理后词表。4.根据权利要求3所述的方法,其特征在于,所述根据所述处理后词表对所述学生翻译模型中的第二输入编码层进行更新包括:通过Chord算法,根据所述处理后词表构建Chord环;将所述训练语料输入所述Chord环,得到输出结果;根据所述输出结果对所述学生翻译模型中的第二输入编码层进行更新。5.根据权利要求1所述的方法,其特征在于,所述教师翻译模型包括第一前馈层,所述学生翻译模型包括第二前馈层,所述根据训练语料训练教师机器学习模型获取教师翻译模型之后,所述将所述训练语料输入所述教师翻译模型获取第一输出结果之前,还包括:根据所述第一前馈层对所述学生翻译模型的第二前馈层进行初始化处理。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一前馈层对所述第二前馈层进...
【专利技术属性】
技术研发人员:王元,邢启洲,李健,陈明,武卫东,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。