当前位置: 首页 > 专利查询>新疆大学专利>正文

基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置制造方法及图纸

技术编号:24996922 阅读:73 留言:0更新日期:2020-07-24 17:59
本发明专利技术公开了基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置,Transformer模型由编码器和解码器两个部分组成,其中,模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。大大改善了神经机器翻译模型在资源匮乏情况下翻译性能不好的问题,提高模型泛化能力。实验结果表明,用17万对维汉平行语料来伪造数据并进行训练翻译模型,最后所取得的翻译质量得到了一定的提升。

【技术实现步骤摘要】
基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置
本专利技术涉及及其翻译
,具体为基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置。
技术介绍
机器翻译是通过机器将一种自然语言转换另一种自然语言的过程。机器翻译的概念提出以来大致经历了四个阶段:基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和神经机器翻译。传统的机器翻译方法因需要人工设定的翻译规则、广覆盖面得平行语料,遇到了成本高,开发周期长的困难。神经机器翻译概念提出以后收到了众大研究者们的关注,且神经机器翻译的翻译性能超过了传统的机器翻译方法。神经机器翻译方法的思想不同与统计机器翻译,统计机器翻译方法的主要思想是通过对大量的平行语料进行统计,构建统计翻译模型,反而神经机器翻译方法是先将文本转换成数字其次对数字进行运算构建神经机器翻译模型。文本转换成数字的方法有离散表示和分布式表示,one-hot表示单词的词向量时将词表大小设为向量长度,向量中除了一个维度的值为1,其余维度值为0,但语义层上不能有效的表示单词意义。2本文档来自技高网...

【技术保护点】
1.基于Transformer模型的数据增强维汉机器翻译系统训练装置,Transformer模型由编码器和解码器两个部分组成,其特征在于:模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。/n

【技术特征摘要】
1.基于Transformer模型的数据增强维汉机器翻译系统训练装置,Transformer模型由编码器和解码器两个部分组成,其特征在于:模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。


2.根据权利要求1所述的基于Transformer模型的数据增强维汉机器翻译系统训练装置,其特征在于:所述编码器的第一个子层self-attention层,第二个子层是前馈神经网络,每个单词先经过self-attention层,对单词进行编码,获取单词的位置信息,单词位置信息通过位置编码器获取,它从输入向量上创建查询和键值对向量,通过缩放点积注意力算法训练该三个向量。


3.基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:训练方法包括以下步骤:
A、对语料进行预处理:
B、短语对齐、抽取和过滤,并抽取名词短语;
C、生成伪平行句对。


4.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:所述步骤A中预处理包括对汉语的的预处理和维吾尔语的预处理,使用维吾尔语预处理工具和分词工具,对维吾尔文进行扩建区-基本区编码转换和分词,对中文语料进行全角-半角的转化,并使用哈工大的中文分词工具对汉语语料分词。


5.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:所述步骤B中短语对齐、抽取使用统计机器翻译工具moses进行短语对齐和短语对抽取,得到约一千万条短语对;短语的过滤是通过简单地规则对抽取的短语对进行过滤,定义的规则如下:
a、过滤包含标点符号的短语对;
b、过滤包含数字的短语对;
c、过滤中文短语包含非中文字符或者维吾尔语短...

【专利技术属性】
技术研发人员:艾山·吾买尔西热艾力·海热拉刘文其盛嘉宝早克热·卡德尔郑炅徐翠云斯拉吉艾合麦提·如则麦麦提
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1