In this paper, a method of Mongolian-Chinese machine translation based on Transformer model to enhance semantic feature information is proposed. Firstly, according to the linguistic characteristics of Mongolian, the invention finds out the features of the additional components of stem, affix and case, and integrates these linguistic features into the training of the model. Secondly, the present invention takes the distributed representation of measuring the similarity between two words as the research background, and comprehensively analyses the influence of depth, density and semantic coincidence on the concept semantic similarity. In the process of translation, the present invention adopts the Transformer model, which uses the triangular function to encode position and constructs a multi-layer encoder-decoder architecture based on the enhanced multi-head attention mechanism. Thus, it relies entirely on the attention mechanism to draw the global dependence relationship between input and output, eliminating recursion and convolution.
【技术实现步骤摘要】
一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
本专利技术属于机器翻译
,特别涉及一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法。
技术介绍
蒙古语是一种黏着语,隶属于阿尔泰语系。蒙古文书面文字有传统蒙古文和西里尔蒙古文,这里我们所研究的蒙汉翻译系统中的“蒙”指的是传统蒙古文到汉文的翻译。传统蒙古文也是一种拼音文字,字母的形态并不唯一,形态的变化与字母在单词中的位置相关,位置包括词的单独开头、词中和词尾。蒙古文的单词由词根(root)+词缀(suffix)的方式形成,词缀分为两类:一类用于缀接到词根的后面赋予原来的词以新的含义,叫做派生词缀,词根后面缀接一个或多个派生词缀就会形成词干(stem);另一类缀接到词干后面用于表达语法意义。蒙古文的名词、动词都存在时态、数、格等多种变化,这些变化同样是通过缀接词缀来实现,因此蒙古文词形变化非常复杂。此外,蒙古文的语序与汉语有很大的差别,蒙古文的动词在主语和谓语的后面,位于句子的末尾,而汉语中动词位于主语和宾语之间。与one-hot表示只使用向量的一个维度不同,单词的分布式表示,使用低维稠密实数向量来表示单词。在该低维向量空间中,可以方便地根据距离或角度等度量方式,衡量两个单词间的相似程度。另外,在技术层面上,在对统计语言模型进行研究的背景下,Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具。然而,Wo ...
【技术保护点】
1.一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,在翻译过程中采用Transformer模型,所述Transformer模型为利用三角函数进行位置编码并基于增强型多头注意力机制构建的多层编码器‑解码器架构,从而完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系,消除递归和卷积。
【技术特征摘要】
1.一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,在翻译过程中采用Transformer模型,所述Transformer模型为利用三角函数进行位置编码并基于增强型多头注意力机制构建的多层编码器-解码器架构,从而完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系,消除递归和卷积。2.根据权利要求1所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,在翻译之前,先对数据进行预处理,所述对数据进行预处理是对蒙文语料中的词干、词缀和格的附加成分进行切割分离,以降低数据的稀疏性,同时找出蒙文在词干、词缀以及格的附加成分的语言特征,并将这些语言特征融入到训练之中。3.根据权利要求2所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,所述切割分离包括小粒度的词缀切分、大粒度的词干切分以及小规模的格的附加成分切分。4.根据权利要求1所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,对数据进行预处理后,综合深度、密度、语义重合度对概念语义相似度的影响,集成语义距离与信息内容的相似度算法建立相似度矩阵,然后进行主成分分析,将相似度矩阵转换成主成分变换矩阵,计算主成分贡献率,并将其作为权值进行加权处理,得到最终的概念语义相似度。5.根据权利要求4所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,所述相似度矩阵的公式表示为Xsim=(xi1,xi2,xi3,xi4,xi5)T,i=1,2,3,…,n所述最终的概念语义相似度计算表示公式为δsim=r1ysim1+r2ysim2+r3ysim3+r4ysim4+r5ysim5其中,Xsim表示相似度矩阵,xi1表示Ds,xi2表示Ks,xi3表示Zs,xi4表示Ss,xi5表示Is,n是被比较概念对集合中的概念词的对数,xi=(Dsi,Ksi,Zsi,Ssi,Isi),为主成分输入样本集合中的一个向量,其中每一维变量分别代表综合相似度计算模块中各部分语义相似度计算的结果,Dsi表示向量中第i维元素的语义距离与相似度之间的关系,Ksi表示向量中第i维元素的深度方面的语义相似度,Zsi表示向量中第i维元素的概念词c的密度影响因子,Ssi表示向量中第i维元素的语义重合度方面的相似度,Isi表示向量中第i维元素的信息内容方面的相似度;δsim表示概念语义相似度,ysim1,ysim2,ysim3,ysim4,ysim5为对相似度矩阵Xsim进行主成分分析所提取出的主成分,r1,r2,r3,r4,r5表示各主成分贡献率。6.根据权利要求1所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其...
【专利技术属性】
技术研发人员:苏依拉,张振,高芬,王宇飞,孙晓骞,牛向华,赵亚平,卞乐乐,
申请(专利权)人:内蒙古工业大学,
类型:发明
国别省市:内蒙古,15
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。