本发明专利技术公开了基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置,Transformer模型由编码器和解码器两个部分组成,其中,模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。大大改善了神经机器翻译模型在资源匮乏情况下翻译性能不好的问题,提高模型泛化能力。实验结果表明,用17万对维汉平行语料来伪造数据并进行训练翻译模型,最后所取得的翻译质量得到了一定的提升。
【技术实现步骤摘要】
基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置
本专利技术涉及及其翻译
,具体为基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置。
技术介绍
机器翻译是通过机器将一种自然语言转换另一种自然语言的过程。机器翻译的概念提出以来大致经历了四个阶段:基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和神经机器翻译。传统的机器翻译方法因需要人工设定的翻译规则、广覆盖面得平行语料,遇到了成本高,开发周期长的困难。神经机器翻译概念提出以后收到了众大研究者们的关注,且神经机器翻译的翻译性能超过了传统的机器翻译方法。神经机器翻译方法的思想不同与统计机器翻译,统计机器翻译方法的主要思想是通过对大量的平行语料进行统计,构建统计翻译模型,反而神经机器翻译方法是先将文本转换成数字其次对数字进行运算构建神经机器翻译模型。文本转换成数字的方法有离散表示和分布式表示,one-hot表示单词的词向量时将词表大小设为向量长度,向量中除了一个维度的值为1,其余维度值为0,但语义层上不能有效的表示单词意义。2013年Google发布了Word2vec词向量训练工具,Word2vec通过给定的文本数据快速有效地训练词向量模型。该模型能够表示出单词在语义层上的向量,可以方便的计算出两个单词的相似度。Word2vec是自然语言处理领域中的里程牌,它促进了自然语言处理任务中的各个任务。神经机器翻译系统主要由编码器和解码器两部分构成,编码器对源语言任意长度的句子进行编码,解码器将编码器输出的特定长度向量作为输入并解码目标语言句子。该结构通过端到端的方式建模,用目标函数训练模型的所有参数。图1展示编码器-解码器模型的结构。由编码器和解码器的不同神经机器翻译系统有循环神经网络(RNN)、长短期记忆(LSTM)、门控递归神经网络(GRU)和Transformer等几种形式。选RNN作为编码器的时候,一般会选用双向RNN结构,其中正向RNN输入序列的从左侧开始编码,反向RNN则输入序列的从右侧开始编码,最终两个编码结果联合起来作为输入序列的最终分布式表示。RNN的主要思想是模型的当前预测不仅与当前时刻的输入有关,而且还与此输入之前的输入有关。当RNN的输入序列过长时,神经元很难接收到远距离的单词信息,从而导致网络中出现梯度消失现象。为了解决以上问题通常采用设置网络最大能接受的最大长度策略,虽然该方法能有效解决梯度消失现象,但不能有效处理长期依赖问题变为RNN的弊端。现有的机器翻译依赖于大规模高质量的平行语料,需要几百万甚至上千万规模的平行语料进行训练才能取得一定的效果。而对于维吾尔语这种的资源的语言来说,是无法获得这么大规模的平行语料的。而且即使有大规模平行语料,基于统计的机器翻译和基于LSTM的机器翻译对长句子的翻译质量也不高,
技术实现思路
本专利技术的目的在于提供基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:基于Transformer模型的数据增强维汉机器翻译系统训练装置,Transformer模型由编码器和解码器两个部分组成,模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。优选的,所述编码器的第一个子层self-attention层,第二个子层是前馈神经网络,每个单词先经过self-attention层,对单词进行编码,获取单词的位置信息,单词位置信息通过位置编码器获取,它从输入向量上创建查询和键值对向量,通过缩放点积注意力算法训练该三个向量。优选的,训练方法包括以下步骤:A、对语料进行预处理:B、短语对齐、抽取和过滤,并抽取名词短语;C、生成伪平行句对。优选的,所述步骤A中预处理包括对汉语的的预处理和维吾尔语的预处理,使用维吾尔语预处理工具和分词工具,对维吾尔文进行扩建区-基本区编码转换和分词,对中文语料进行全角-半角的转化,并使用哈工大的中文分词工具对汉语语料分词。优选的,所述步骤B中短语对齐、抽取使用统计机器翻译工具moses进行短语对齐和短语对抽取,得到约一千万条短语对;短语的过滤是通过简单地规则对抽取的短语对进行过滤,定义的规则如下:a、过滤包含标点符号的短语对;b、过滤包含数字的短语对;c、过滤中文短语包含非中文字符或者维吾尔语短语包含非维吾尔语字符的短语对;d、过滤长度比例过大或过小的短语对;e、过滤单个词和非名词短语,之后剩下的短语对有324万条;抽取名词短语,使用哈工大的句法分析器对中文句子进行句法分析,抽取句子中的所有名词短语;因缺少维吾尔语句法分析器,故采用短语对齐表找出中文名词短语对应的维吾尔语名词短语。优选的,所述步骤C中包括:a、训练词向量,用汉语和维吾尔语单语语料训练词向量模型,词向量选用的是word2vec中的skip-gram模型;b、计算短语相似度:首先在单词向量基础下计算短语向量,其次通过余弦相似度计算两个短语的相似度,把短语中的每个单词的向量相加再求平均,从而得到短语的向量;然后分别计算每个短语与短语表中的所有短语的相似度,计算短语相似度时使用的采用的是余弦相似度;计算短语向量和短语相似度公式如下:其中p是短语向量,wi是第i个单词的向量,pi和pj是需要计算相似度的两个短语向量;c、生成句子:把原始句对中的名词短语用短语表中与它相似度最高的短语来替换,计算使用的是维吾尔语的短语相似度,在替换维吾尔语短语时,同时替换对应的汉语句子中的短语。d、筛选伪平行语料,过滤掉不符合规则:使用SRILM在359万条维吾尔语的单语数据和354万汉语的单语数据分别训练出维吾尔语和汉语的语言模型,通过训练的语言模型计算每条新生成句子的困惑度,过滤掉新生成句子比原句子困惑度高5的句子,其中困惑度度量是一种评价语言模型质量良好的指标,困惑度是一种信息论的测度,用来测量一个概率模型预测样本的好坏,困惑度越低越好,给定一个包含n个词的文本语料w1,w2,…,wn和一个基于词语历史的用于为词语分配概率的语言模型函数LM,LM在这个语料困惑度是:与现有技术相比,本专利技术的有益效果是:本专利技术大大改善了神经机器翻译模型在资源匮乏情况下翻译性能不好的问题,提高模型泛化能力。实验结果表明,用17万对维汉平行语料来伪造数据并进行训练翻译模型,最后所取得的翻译质量得到了一定的提升。附图说明图1为现有技术中编码器-解码器模型的结构示意图;图2为现有技术中系统结构图;图3为本专利技术模型结构图;图4为本专利技术查询向量对应目标句子的向量示意图;图5为本专利技术数据查询架构图;图6为本专利技术位置嵌入示意图;图7为本专利技术流程图。具体实施本文档来自技高网...
【技术保护点】
1.基于Transformer模型的数据增强维汉机器翻译系统训练装置,Transformer模型由编码器和解码器两个部分组成,其特征在于:模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。/n
【技术特征摘要】
1.基于Transformer模型的数据增强维汉机器翻译系统训练装置,Transformer模型由编码器和解码器两个部分组成,其特征在于:模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。
2.根据权利要求1所述的基于Transformer模型的数据增强维汉机器翻译系统训练装置,其特征在于:所述编码器的第一个子层self-attention层,第二个子层是前馈神经网络,每个单词先经过self-attention层,对单词进行编码,获取单词的位置信息,单词位置信息通过位置编码器获取,它从输入向量上创建查询和键值对向量,通过缩放点积注意力算法训练该三个向量。
3.基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:训练方法包括以下步骤:
A、对语料进行预处理:
B、短语对齐、抽取和过滤,并抽取名词短语;
C、生成伪平行句对。
4.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:所述步骤A中预处理包括对汉语的的预处理和维吾尔语的预处理,使用维吾尔语预处理工具和分词工具,对维吾尔文进行扩建区-基本区编码转换和分词,对中文语料进行全角-半角的转化,并使用哈工大的中文分词工具对汉语语料分词。
5.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:所述步骤B中短语对齐、抽取使用统计机器翻译工具moses进行短语对齐和短语对抽取,得到约一千万条短语对;短语的过滤是通过简单地规则对抽取的短语对进行过滤,定义的规则如下:
a、过滤包含标点符号的短语对;
b、过滤包含数字的短语对;
c、过滤中文短语包含非中文字符或者维吾尔语短...
【专利技术属性】
技术研发人员:艾山·吾买尔,西热艾力·海热拉,刘文其,盛嘉宝,早克热·卡德尔,郑炅,徐翠云,斯拉吉艾合麦提·如则麦麦提,
申请(专利权)人:新疆大学,
类型:发明
国别省市:新疆;65
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。