【技术实现步骤摘要】
融合BERT与词嵌入双重表征的汉越神经机器翻译方法
[0001]本专利技术涉及融合BERT与词嵌入双重表征的汉越神经机器翻译方法,属于自然语言处理
技术介绍
[0002]汉语
‑
越南语的机器翻译需求不断增加,神经机器翻译是目前主流的机器翻译方法,但在汉
‑
越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到单语语料丰富,海量的单语语料进行自监督学习能够得到包含丰富语言信息的预训练语言模型,将该预训练语言模型融入神经机器翻译系统对低资源的机器翻译具有重要意义,故提出了融合BERT与词嵌入双重表征的汉越神经机器翻译方法。
[0003]目前,BERT预训练语言模型在句法分析、文本分类等NLP任务中取得优异成绩,证明该语言模型内包含丰富的语言信息,这些语言信息包含在编码后得到的表征向量中,无法进行直接观察,因此Jinhua Zhu等人提出BERT
‑
fused算法实现把BERT预训练语言模型编码输出的隐状态随机融入到Trans ...
【技术保护点】
【技术特征摘要】
1.融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述方法包括:Step1、收集用于训练平行句对抽取模型的汉越平行语料;Step2、收集已经预训练的中文BERT预训练语言模型参数以及词典;Step3、对源语言序列分别进行BERT预训练语言模型预训练表征与词嵌入表征;Step4、使用交叉注意力机制使经过BERT预训练语言模型预训练的源语言序列表征受到词嵌入表征的约束,将经过BERT预训练语言模型训练后的源语言序列表征和词嵌入表征进行拼接融合得到融合表征作为编码器的输入;Step5、使用编码器使得融合表征中两种不同来源的表征达到深层动态交互融合;Step6、利用BERT预训练语言模型与词嵌入双重表征进行神经机器翻译模型的训练。2.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step1中,运用爬虫技术在互联网收集了汉越双语平行句对,将收集后得到的数据进行了清洗以及Tokenize处理,构建成了汉越双语平行句对的数据集,把该数据集作为实验训练、测试、验证数据。3.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step2中,收集google发布的中文BERT预训练语言模型参数以及词典,在Pytorch框架下将模型参数和词典实例化为BERT预训练语言模型。4.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神...
【专利技术属性】
技术研发人员:高盛祥,刘演,余正涛,毛存礼,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。