融合BERT与词嵌入双重表征的汉越神经机器翻译方法技术

技术编号:31790228 阅读:24 留言:0更新日期:2022-01-08 10:47
本发明专利技术涉及融合BERT与词嵌入双重表征的汉越神经机器翻译方法,属于自然语言处理技术领域。本发明专利技术使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立两种表征之间的联系后进行拼接操作得到双重表征向量,再经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。本发明专利技术提出的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,解决了因为越南语是低资源语言而导致汉语与越南语的神经机器翻译的性能并不理想的问题,显著提高汉越神经机器翻译模型的质量。显著提高汉越神经机器翻译模型的质量。显著提高汉越神经机器翻译模型的质量。

【技术实现步骤摘要】
融合BERT与词嵌入双重表征的汉越神经机器翻译方法


[0001]本专利技术涉及融合BERT与词嵌入双重表征的汉越神经机器翻译方法,属于自然语言处理


技术介绍

[0002]汉语

越南语的机器翻译需求不断增加,神经机器翻译是目前主流的机器翻译方法,但在汉

越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到单语语料丰富,海量的单语语料进行自监督学习能够得到包含丰富语言信息的预训练语言模型,将该预训练语言模型融入神经机器翻译系统对低资源的机器翻译具有重要意义,故提出了融合BERT与词嵌入双重表征的汉越神经机器翻译方法。
[0003]目前,BERT预训练语言模型在句法分析、文本分类等NLP任务中取得优异成绩,证明该语言模型内包含丰富的语言信息,这些语言信息包含在编码后得到的表征向量中,无法进行直接观察,因此Jinhua Zhu等人提出BERT

fused算法实现把BERT预训练语言模型编码输出的隐状态随机融入到Transformer模型的编本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述方法包括:Step1、收集用于训练平行句对抽取模型的汉越平行语料;Step2、收集已经预训练的中文BERT预训练语言模型参数以及词典;Step3、对源语言序列分别进行BERT预训练语言模型预训练表征与词嵌入表征;Step4、使用交叉注意力机制使经过BERT预训练语言模型预训练的源语言序列表征受到词嵌入表征的约束,将经过BERT预训练语言模型训练后的源语言序列表征和词嵌入表征进行拼接融合得到融合表征作为编码器的输入;Step5、使用编码器使得融合表征中两种不同来源的表征达到深层动态交互融合;Step6、利用BERT预训练语言模型与词嵌入双重表征进行神经机器翻译模型的训练。2.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step1中,运用爬虫技术在互联网收集了汉越双语平行句对,将收集后得到的数据进行了清洗以及Tokenize处理,构建成了汉越双语平行句对的数据集,把该数据集作为实验训练、测试、验证数据。3.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step2中,收集google发布的中文BERT预训练语言模型参数以及词典,在Pytorch框架下将模型参数和词典实例化为BERT预训练语言模型。4.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神...

【专利技术属性】
技术研发人员:高盛祥刘演余正涛毛存礼
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1