【技术实现步骤摘要】
一种面向神经机器翻译的编码器-解码器框架预训练方法
本专利技术涉及一种编码器-解码器框架的预训练方法,具体为面向神经机器翻译的编码器-解码器框架预训练方法。
技术介绍
在神经网络中,预训练方法是指通过海量的通用数据训练得到一个基础模型,这种通用且充分的数据能够鼓励模型在相同领域的下游任务上拥有很好的泛化能力。之后,针对下游任务,使用任务特定的数据对预训练好的模型进行微调,使模型更关注任务相关的特征,在该任务上具有更好的表现。在任务特定的数据量较小的情况下,预训练方法能够有效提升模型性能,而且由于预训练模型已经具备了通用的特征提取能力,微调模型能够达到更快的收敛速度和更强的鲁棒性。在计算机视觉领域,预训练方法已经被广泛应用,然而在自然语言处理领域,人们对于预训练方法的研究才刚刚开始。最近,研究人员们提出了多种基于语言模型的预训练方法,比如ELMo、GPT和BERT等,这些预训练方法通过预训练语言模型任务,能够有效地应用于命名实体识别、文本蕴含、问答、情感分析和语义角色标注等多个任务上,而且都达到了当前最好的性能。因此, ...
【技术保护点】
1.一种面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于包括以下步骤:/n1)构建海量的多语言文档级单语语料,将其处理为<前句,后句>形式的句对,前句和后句为同一种语言,在每个句子前面加入一个特殊的标识符,表示该句的语言种类;/n2)对句对进行清洗过滤、分词、子词切分预处理,得到训练数据;/n3)使用训练数据通过下一句生成任务预训练编码器-解码器框架,编码器提取前句中的信息,将其编码为一个向量表示,解码器根据编码器提取到的信息,解码生成相同语言的后句内容,模型通过共享参数对不同语言的单语数据进行训练,得到收敛后的预训练模型参数;/n4)构建平行语料,和 ...
【技术特征摘要】
1.一种面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于包括以下步骤:
1)构建海量的多语言文档级单语语料,将其处理为<前句,后句>形式的句对,前句和后句为同一种语言,在每个句子前面加入一个特殊的标识符,表示该句的语言种类;
2)对句对进行清洗过滤、分词、子词切分预处理,得到训练数据;
3)使用训练数据通过下一句生成任务预训练编码器-解码器框架,编码器提取前句中的信息,将其编码为一个向量表示,解码器根据编码器提取到的信息,解码生成相同语言的后句内容,模型通过共享参数对不同语言的单语数据进行训练,得到收敛后的预训练模型参数;
4)构建平行语料,和预训练模型使用同样的分词和子词切分方式,并且使用相同的模型结构,使用预训练模型参数初始化神经机器翻译模型的参数;
5)初始化后的神经机器翻译模型通过平行语料对模型参数进行微调,完成训练过程;
6)在解码阶段,使用训练完成的神经机器翻译模型的编码器对源语句子进行编码,解码器解码生成目标语言句子。
2.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于:步骤1)中,构建海量的多语言文档级单语语料,将其处理为<前句,后句>形式的句对,前句和后句为同一种语言,在每个句子前面加入一个特殊的标识符,表示该句的语种,具体为:
101)对于文档级单语语料,转化为<前句,后句>形式的句对;
102)在每个句子前面加入一个特殊的标识符来表示这个句子对应的语种,通过这种处理,在训练过程中,模型就可以识别到输入和输出对应的语言种类,从而进行特定的编码和生成。
3.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于:步骤2)中,对文档级单语语料进行清洗过滤、分词、子词切分预处理,文档级单语语料的前句和后句包含部分相近的语义信息,在翻译任务中,源语句子和目标语句子的长度一般不会相差太多,而文档中前句和后句之间的长度却没有任何约束,相差很大,去除长度大于250个字符的句子,并且使用长度比过滤去除长度比大于1:1.5的句对。
4.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于:步骤3)中,使用训练数据通过下一句生成任务预训练编码器-解码器框架,模型通过共享参数对不同语言的单语数据进行训练,具体为:...
【专利技术属性】
技术研发人员:杜权,朱靖波,肖桐,张春良,
申请(专利权)人:沈阳雅译网络技术有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。