【技术实现步骤摘要】
一种基于领域分类的反向翻译数据构建及训练方法
[0001]本专利技术涉及自然语言处理、机器翻译、数据增强领域,尤其是涉及一种基于领域分类的反向翻译数据构建及训练方法。
技术介绍
[0002]近年来,神经机器翻译成为机器翻译方法的主流模型,然而神经机器翻译对于数据的依赖性极高,通常而言训练数据越大翻译质量越佳,对于少数语言的机器翻译,其双语平行语料的不足往往成为限制其翻译质量的重要因素,尤其是在特殊领域的机器翻译,高质量的领域语料和大量的通用语料相比十分稀少。需要采取一些数据增强的方法来改善翻译质量,其中典型的方法即利用单语语料进行反向翻译获取伪平行语料。因此,如何有效获取大量高质量的单语语料,并保证其反向翻译过程中质量损失更少以此改善机器翻译模型成为研究目标之一。另一方面,相比较于庞大的单语通用语料而言,特殊领域的单语数据更加稀少以及不平衡问题导致训练过程中领域知识被忽略,翻译模型在实际领域的翻译效果不佳。
[0003]反向翻译是一种利用单语语料提升训练数据质量的常用方法。将反向翻译方法应用于语料缺乏的机器翻译任务在 ...
【技术保护点】
【技术特征摘要】
1.一种基于领域分类的反向翻译数据构建及训练方法,其特征在于包括以下步骤:1)基于原语料训练双语模型:使用Transformer神经网络模型,将双语原语料分别作为源端
‑
目标端和目标端
‑
源端训练两个神经机器翻译模型,2)基于关键词和主题相似性构建领域单语数据集;3)基于反向翻译生成领域伪平行数据集:将步骤2)获取的领域单语数据集作为源端数据集,使用步骤1)中训练好的双语模型进行反向翻译获得伪句子对,整理对齐后形成领域伪平行数据集;4)基于领域分类学习的联合训练:将步骤3)所得伪平行数据集标记为领域语料与通用数据进行联合训练。2.如权利要求1所述一种基于领域分类的反向翻译数据构建及训练方法,其特征在于在步骤1)中,所述基于原语料训练双语模型的具体步骤为:语言模型基于开源Transformer的神经网络模型,该模型基于self
‑
attention的编码器
‑
解码器模型,由输入、编码、解码、输出四个模块组成;输入模块将训练文件中读出的输入的文本序列Input={s1,s2,s3,
…
,st},st代表第i个单词,获得初始化词嵌入并与位置编码连接后得到输入向量Input Embedding={x1,x2,
…
,xt},送入编码器;编码器每一层由多头注意力机制,前馈神经网络组成,规范化层,残差连接组成,其中核心模型为多头注意力机制由注意力机制演化而来,表达式为:在编码器得到输入的抽象特征表示后,将其输入到解码器中进行解码;解码器与编码器结构基本一致,反过来执行将目标嵌入、编码器状态、解码器状态联系起来进行解码;解码结果经过一个线性层和softmax层输出为标签整体的概率分布;对于机器翻译双语模型而言,常用的训练损失函数为交叉熵损失;基于该模型的使用,将整理好的高质量的原始双语数据集S进行对齐、分词、BPE、统计词表、训练集分割等预处理后,分布训练一个单向模型;基于构造的双语模型,用原始语料进行训练,得到两个双语模型。3.如权利要求1所述一种基于领域分类的反向翻译数据构建及训练方法,其特征在于在步骤2)中,所述基于关键词和主题相似性构建领域单语数据集的具体步骤为:寻找领域相关的篇章中即通过文档主题相似性扩展数据集,以避免逐句选择的低效性;对任意一个领域,领域内频繁出现的关键词可以代表这个领域的主题,但需要排除掉一些代词,人名等无意义词汇,可以通过程序自动获取的方式构建,具体构建方法:(1)构建一个基本词库,使用python工具包对现有领域数据集进行词频统计,获取前500个常用词汇中后人工筛选出一个词库,过滤掉一些常用词汇,得到一个大小为256的基本词库作为领域主题代表D=[d1,d2,
…
,dn],di...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。