当前位置: 首页 > 专利查询>新疆大学专利>正文

一种基于词与词素混合模型的维汉机器翻译系统技术方案

技术编号:26971324 阅读:35 留言:0更新日期:2021-01-06 00:02
本发明专利技术公开了一种基于词与词素混合模型的维汉机器翻译系统,所述系统包括编码器、词+词素混合模型和解码单元,所述混合粒度编码器主要以词为翻译单元,但对一些低频词以词素为翻译单元;所述词+词素混合模型对编码器的词进行处理时使用基于词的NMT进行处理,在对对编码器的词素,利用深度LTSM单独在词素层面处理。本发明专利技术能从翻译粒度方面出发,对词素和词两个不同粒度的翻译单元进行混合处理,将其作为神经网络机器翻译的混合翻译单元。同时针对词和词素的混合情况提出词+词素混合模型可以在词素层面处理集外词,提高神经网络机器翻译的性能。

【技术实现步骤摘要】
一种基于词与词素混合模型的维汉机器翻译系统
本专利技术属于翻译
,涉及一种基于词与词素混合模型的维汉机器翻译系统。
技术介绍
神经网络翻译模型(neuralmachinetranslationmodel,NMT)是目前机器翻译中的主流模型,其通过神经网络实现一个端到端(end-to-end)的源语言和目标语言之间的翻译过程。其具体实现方式为通过一个编码器(encoder)对源语言进行一次向量编码,通过解码器(decoder)将向量编码解码成目标语言。同时注意力机制(attention)的引入给神经网络机器翻译的性能带来了一个质的提升。目前国际上顶级机器翻译比赛WMT中,神经网络翻译模型得到了广泛的应用。目前,由于维汉相关翻译语料库的匮乏以及维吾尔语本身形态结构的复杂性,导致神经网络翻译模型在维汉机器翻译中的研究相比与英汉机器翻译中研究存在一定程度的滞后。其原因为英汉的语料规模在亿级的层次,而维汉语料仅仅在几十万级的层次。神经网络机器翻译模型的参数量多,语料匮乏的情况下会导致翻译效果达不到目标结果。同时维吾尔语属于黏着语,是一种形态本文档来自技高网...

【技术保护点】
1.一种基于词与词素混合模型的维汉机器翻译系统,其特征在于:包括混合粒度编码器、混合词+词素模型和解码单元,所述混合粒度编码器主要以词为翻译单元,但对一些低频词以词素为翻译单元;所述词+词素混合模型对混合粒度编码器的词进行处理时使用基于词的NMT进行处理,在对混合粒度编码器的词素,利用深度LTSM单独在词素层面处理低频词。/n

【技术特征摘要】
1.一种基于词与词素混合模型的维汉机器翻译系统,其特征在于:包括混合粒度编码器、混合词+词素模型和解码单元,所述混合粒度编码器主要以词为翻译单元,但对一些低频词以词素为翻译单元;所述词+词素混合模型对混合粒度编码器的词进行处理时使用基于词的NMT进行处理,在对混合粒度编码器的词素,利用深度LTSM单独在词素层面处理低频词。


2.根据权利要求1所述的基于词与词素混合模型的维汉机器翻译系统,其特征在于:包含混合粒度编码器,对高频词以词为翻译单元,对低频词以词素为翻译单元,在编码过程中,对词典中找到对应的高频词进行编码处理,对词典不存在的低频词进行词素分割,在词素词典中找到对应的词素从而进行编码处理。


3.根据权...

【专利技术属性】
技术研发人员:艾斯卡尔·艾木都拉伊克萨尼·普尔凯提李斌
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1