一种构建机器翻译模型的方法、翻译装置及计算机可读存储介质制造方法及图纸

技术编号:28752697 阅读:22 留言:0更新日期:2021-06-09 10:17
本发明专利技术公开了一种构建机器翻译模型的方法,包括:构建用于通用领域的基础机器翻译模型;基于基础机器翻译模型,向特定领域进行微调,以构建用于特定领域的机器翻译模型。本发明专利技术还公开了一种对应的翻译装置和计算机可读存储介质。通过微调机制,实现翻译效果以及翻译模型开发时间的综合提升。译模型开发时间的综合提升。译模型开发时间的综合提升。

【技术实现步骤摘要】
一种构建机器翻译模型的方法、翻译装置及计算机可读存储介质


[0001]本专利技术实施例涉及但不限于机器翻译
,尤其涉及一种构建机器翻译模型的方法、翻译装置及计算机可读存储介质。

技术介绍

[0002]机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。
[0003]机器翻译具有重要的实用价值,机器翻译相较于人工翻译具有三个明显的优势:成本低、易把控以及翻译速度快。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译。
[0004]目前流行的翻译系统主要的都是针对通用领域的翻译,在面对一些专有领域的很多场景下效果却不是很好,比如医疗领域、金融领域,以及法律合规领域。而重新开发专有领域的翻译系统需要花费大量的人力和物力。因此,需要一种不仅翻译效果良好,开发效率高的适用于专有领域的翻译系统。

技术实现思路

[0005]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0006]一方面,本专利技术实施例提供了一种利用微调构建机器翻译模型的方法,以提高开发效率,提升翻译效果,所述方法,包括:/>[0007]构建用于通用领域的基础机器翻译模型;
[0008]基于所述基础机器翻译模型,向特定领域进行微调,以构建用于特定领域的机器翻译模型。
[0009]另一方面,本专利技术实施例提供了一种翻译装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的构建机器翻译模型的方法。
[0010]再一方面,本专利技术实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述的构建机器翻译模型的方法。
[0011]本专利技术实施例包括:基于通用领域训练数据集,获得适用于通用领域的基础机器翻译模型;利用所获得的基础机器翻译模型,基于特定领域训练数据集,调整模型的超参数:学习率,向特定领域进行微调,以构建用于特定领域的结果机器翻译模型。由此,根据本专利技术的实施例,创新性地将微调的思想应用到机器翻译的领域适应迁移上,实现翻译效果
以及翻译模型开发时间的综合提升。同时,还创新性的对经典转换器架构进行相关参数的调整,实现整体效果的提升。
[0012]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0013]附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。
[0014]图1是本专利技术一个实施例的利用微调构建机器翻译模型的方法整体流程图;
[0015]图2是本专利技术一个实施例利用微调构建机器翻译模型的方法中的数据预处理的流程图;
[0016]图3是本专利技术一个实施例利用微调构建机器翻译模型的方法中的关键词保护处理的流程图;
[0017]图4是本专利技术一个实施例利用微调构建机器翻译模型的方法中的词表处理的流程图;
[0018]图5是本专利技术一个实施例利用微调构建机器翻译模型的方法中的训练基础机器翻译模型的流程图;
[0019]图6是本专利技术一个实施例利用微调构建机器翻译模型的方法中的基于基础模型向特定领域微调从而构建适于特定领域的机器翻译模型的流程图;
[0020]图7是本专利技术另一个实施例采用转换器架构的通过微调构建的适于特定领域的机器翻译模型的总体架构,并展示了系统架构中的整体模型设计和训练流程;
[0021]图8是图7实施例的机器翻译模型的第一数据预处理部的一实施方式的结构图,其中以箭头流向展示了对训练数据的预处理流程;
[0022]图9是图7实施例的机器翻译模型的语料处理中的关键词保护的一实施方式的流程图,主要展示了为实现关键词保护而对训练数据所做的处理流程;
[0023]图10是图7实施例的机器翻译模型的转换器架构的一实施方式的示意图,其中以箭头流向展示了通过该架构的训练步骤;
[0024]图11是图7实施例的机器翻译模型的微调部分的一实施方式的示意图,其中以箭头流向展示了机器翻译由通用领域向特定领域微调的流程;
[0025]图12是本专利技术再一个实施例的采用转换器架构的通过微调构建适于电信领域的机器翻译模型架构的示意图;
[0026]图13是图12实施例的机器翻译模型的实现流程的示意图;
[0027]图14是本专利技术再一个实施例的采用转换器架构的通过微调构建适于法律领域的机器翻译模型架构的示意图;
[0028]图15是图14实施例的机器翻译模型的实现流程的示意图;
[0029]图16是本专利技术再一个实施方式的机器翻译模型的结构框图。
具体实施方式
[0030]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0031]需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0032]基于深度学习的神经网络机器翻译(NMT,Neural Machine Translation)技术,经过多年的发展,翻译质量相对于以往的基于统计学的机器翻译系统,有较大的提高。最近的几年,更进一步的提出了基于注意力机制,从而采用转换器架构的深度学习机器翻译系统,将机器翻译的准确度和流畅度更往上提高了月一个台阶。于2017年6月由谷歌公司发布在Arxiv上的一篇题为《Attention is all you need》的文章,提出解决序列到序列(sequence to sequence)问题的转换器(Transformer)模型,用全注意力(Attention)的结构代替了长短期记忆(lstm,Long Short-Term Memory),由此抛弃了之前传统的编码器-解码器模型必须结合卷积神经网络(CNN)或者循环神经网络(RNN)的固有模式,可谓大道至简。这样的模型在机器翻译上取得了前所未有的突破,将神经网络机器翻译带进了一个全新的时代。
[0033]目前,市面上现有的若干机器翻译系统均得到了使用者的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种构建机器翻译模型的方法,包括:构建用于通用领域的基础机器翻译模型;基于所述基础机器翻译模型,向特定领域进行微调,以构建用于特定领域的机器翻译模型。2.根据权利要求1所述的方法,其特征在于,所述构建用于通用领域的基础机器翻译模型,以及所述构建用于特定领域的机器翻译模型,分别包括:准备训练数据集,其中所述训练数据集包括语料对;对所述训练数据集中的语料对进行预处理。3.根据权利要求2所述的方法,其特征在于,所述对训练数据集中的语料对进行预处理包括对语料对中的关键词进行保护处理,包括:匹配所述语料对中的字符串;根据所述语料对中的相同字符串识别出关键词;使用特殊字符串替换关键词。4.根据权利要求2所述的方法,其特征在于,所述构建用于通用领域的基础机器翻译模型,以及所述构建用于特定领域的机器翻译模型,还分别包括:基于字节对编码(BPE)机制对经预处理的语料对中的词进行切分,以建立词表;根据词表对训练数据集的语料对中的词进行分词,以建立经分词的训练集。5.根据权利要求4所述的方法,其特征在于,所述构建用于通用领域的基础机器翻译模型还包括采用转换器架构并确定架构参数。6.根据权利要求4所述的方法,其特征在于,所述确定架构参数包括:设置编码器、解码器的层数为6-10层;设置隐藏层神经元个数为512-1024;设置输出层神经元个数与词表长度一致;根据训练数据集规模,按一定衰减周期设置训练第一学习率。7.根据权利要求1所述的方法,其特征在于,所述构建用于通用领域的基础机器翻译模型还包括采用最小风险训练来设计损失函数。8.根据权...

【专利技术属性】
技术研发人员:蔡岩松屠要峰郭斌周祥生
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1