当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于领域分类的反向翻译数据构建及训练方法技术

技术编号:37961853 阅读:8 留言:0更新日期:2023-06-30 09:36
一种基于领域分类的反向翻译数据构建及训练方法,涉及自然语言处理、机器翻译、数据增强领域,基于原语料训练双语模型:使用Transformer神经网络模型,将双语原语料分别作为源端

【技术实现步骤摘要】
一种基于领域分类的反向翻译数据构建及训练方法


[0001]本专利技术涉及自然语言处理、机器翻译、数据增强领域,尤其是涉及一种基于领域分类的反向翻译数据构建及训练方法。

技术介绍

[0002]近年来,神经机器翻译成为机器翻译方法的主流模型,然而神经机器翻译对于数据的依赖性极高,通常而言训练数据越大翻译质量越佳,对于少数语言的机器翻译,其双语平行语料的不足往往成为限制其翻译质量的重要因素,尤其是在特殊领域的机器翻译,高质量的领域语料和大量的通用语料相比十分稀少。需要采取一些数据增强的方法来改善翻译质量,其中典型的方法即利用单语语料进行反向翻译获取伪平行语料。因此,如何有效获取大量高质量的单语语料,并保证其反向翻译过程中质量损失更少以此改善机器翻译模型成为研究目标之一。另一方面,相比较于庞大的单语通用语料而言,特殊领域的单语数据更加稀少以及不平衡问题导致训练过程中领域知识被忽略,翻译模型在实际领域的翻译效果不佳。
[0003]反向翻译是一种利用单语语料提升训练数据质量的常用方法。将反向翻译方法应用于语料缺乏的机器翻译任务在不同的文献当中都验证了有效性。其中Edunov等人(Sergey Edunov,et al.2018.Understanding Back

Translation at Scale.In Proceedings of the 2018Conference on Empirical Methods in Natural Language Processing,pages 489<br/>–
500,Brussels,Belgium.Association for Computational Linguistics)对不同场景下反向翻译进行了研究,证明了反向翻译能提升BLEU。Sennrich等人(Rico Sennrich,Barry Haddow,and Alexandra Birch.2016.Improving Neural Machine Translation Models with Monolingual Data.In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),pages86

96,Berlin,Germany.Association for Computational Linguistics.)则利用反向翻译的单语数据和原语料混合后加入训练提高翻译质量,同时他们的进一步研究证明这种目标单语的合成数据对领域自适应有很大帮助(Rico Sennrich,Barry Haddow,and Alexandra Birch.2016c.Neural machine translation of rare words with subword units.In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),pages 1715

1725,Berlin,Germany,August.Association for Computational Linguistics)。而在领域数据的构建上,一般直接采用现有的人工标记的领域数据集或使用同义词相似性和句子相似性替换的方式构成数据集。面临通用数据和领域内数据的采样问题上,通过增加领域相关权重及改变模型训练目标是常见的方式。如Chen等人(Boxing Chen,Colin Cherry,George Foster,and Samuel Larkin.2017a.Cost weighting for neural machine translation domain adaptation.In Proceedings of the First Workshop on Neural Machine Translation,pages 40

46,Vancouver.)通过提前训练一个领域分类,并把输出
概率迁移到翻译模型中代替实际权重,Wang等人(Rui Wang,Masao Utiyama,Andrew Finch,Lemao Liu,Kehai Chen,and Eiichiro Sumita.2018.Sentence selection and weighting for neural machine translation domain adaptation.IEEE/ACM Transactions on Audio,Speech,and Language Processing)则通过句子选择和领域加权进行联合训练。然而这些方法存在一些不足:一是人工标记的领域数据较少,而基于替代的方式过于机械且不符合现实分布;在领域和通用数据集学习上,缺乏领域权重的模型无法解决样本分布不平衡的问题,不能很好学习领域知识,而提前训练额外的分类器在迁移过程中仍需要进行一轮权重调整来适应模型。

技术实现思路

[0004]本专利技术的目的在于针对少数语言翻译尤其是特殊领域翻译过程中,由于语料缺乏导致的翻译质量不高问题,提供一种基于领域分类的反向翻译数据构建及训练方法。利用领域主题相似性的方法从文档中构建伪平行语料来增强领域数据集,通过领域分类的联合训练来提升领域适应能力,提高模型的领域识别能力和泛化性能,一方面可以更快更好挖掘高质量领域单语数据,另一方面是使模型更好的学习领域知识,从而增强神经翻译模型对领域翻译的翻译质量。
[0005]本专利技术包括以下步骤:
[0006]1)基于原语料训练双语模型:使用Transformer神经网络模型,将双语原语料分别作为源端

目标端和目标端

源端训练两个神经机器翻译模型,
[0007]2)基于关键词和主题相似性构建领域单语数据集;
[0008]3)基于反向翻译生成领域伪平行数据集:将步骤2)获取的领域单语数据集作为源端数据集,使用步骤1)中训练好的双语模型进行反向翻译获得伪句子对,整理对齐后形成领域伪平行数据集;
[0009]4)基于领域分类学习的联合训练:将步骤3)所得伪平行数据集标记为领域语料与通用数据进行混合后联合训练。
[0010]在步骤1)中,所述基于原语料训练双语模型的具体步骤可为:
[0011]语言模型基于开源Transformer的神经网络模型,该模型基于self

attention的编码器

解码器模型,由输入、编码、解码、输出四个模块组成;输入模块将训练文件中读出的输入的文本序列Input={s1,s2,s3,

,st},st代表第i个单词,获得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于领域分类的反向翻译数据构建及训练方法,其特征在于包括以下步骤:1)基于原语料训练双语模型:使用Transformer神经网络模型,将双语原语料分别作为源端

目标端和目标端

源端训练两个神经机器翻译模型,2)基于关键词和主题相似性构建领域单语数据集;3)基于反向翻译生成领域伪平行数据集:将步骤2)获取的领域单语数据集作为源端数据集,使用步骤1)中训练好的双语模型进行反向翻译获得伪句子对,整理对齐后形成领域伪平行数据集;4)基于领域分类学习的联合训练:将步骤3)所得伪平行数据集标记为领域语料与通用数据进行联合训练。2.如权利要求1所述一种基于领域分类的反向翻译数据构建及训练方法,其特征在于在步骤1)中,所述基于原语料训练双语模型的具体步骤为:语言模型基于开源Transformer的神经网络模型,该模型基于self

attention的编码器

解码器模型,由输入、编码、解码、输出四个模块组成;输入模块将训练文件中读出的输入的文本序列Input={s1,s2,s3,

,st},st代表第i个单词,获得初始化词嵌入并与位置编码连接后得到输入向量Input Embedding={x1,x2,

,xt},送入编码器;编码器每一层由多头注意力机制,前馈神经网络组成,规范化层,残差连接组成,其中核心模型为多头注意力机制由注意力机制演化而来,表达式为:在编码器得到输入的抽象特征表示后,将其输入到解码器中进行解码;解码器与编码器结构基本一致,反过来执行将目标嵌入、编码器状态、解码器状态联系起来进行解码;解码结果经过一个线性层和softmax层输出为标签整体的概率分布;对于机器翻译双语模型而言,常用的训练损失函数为交叉熵损失;基于该模型的使用,将整理好的高质量的原始双语数据集S进行对齐、分词、BPE、统计词表、训练集分割等预处理后,分布训练一个单向模型;基于构造的双语模型,用原始语料进行训练,得到两个双语模型。3.如权利要求1所述一种基于领域分类的反向翻译数据构建及训练方法,其特征在于在步骤2)中,所述基于关键词和主题相似性构建领域单语数据集的具体步骤为:寻找领域相关的篇章中即通过文档主题相似性扩展数据集,以避免逐句选择的低效性;对任意一个领域,领域内频繁出现的关键词可以代表这个领域的主题,但需要排除掉一些代词,人名等无意义词汇,可以通过程序自动获取的方式构建,具体构建方法:(1)构建一个基本词库,使用python工具包对现有领域数据集进行词频统计,获取前500个常用词汇中后人工筛选出一个词库,过滤掉一些常用词汇,得到一个大小为256的基本词库作为领域主题代表D=[d1,d2,

,dn],di...

【专利技术属性】
技术研发人员:史晓东宋佳欣陈毅东
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1