当前位置: 首页 > 专利查询>新疆大学专利>正文

一种融合聚类算法的维汉机器翻译系统技术方案

技术编号:24757421 阅读:42 留言:0更新日期:2020-07-04 09:26
本发明专利技术公开了一种融合聚类算法的维汉机器翻译系统,由使用gensim中的Doc2vec训练维吾尔语句子向量模型;使用k‑means方法实现维吾尔语的文本聚类;使用transformer结构训练维汉机器翻译模型;使用微调的方法将聚类后的每一类数据分别微调机器翻译模型得到k个子翻译模型,融合以上方法实现了对维吾尔语的向量化,聚类并训练维汉翻译模型,其特征在于:由于长度较短的句子很难有丰富的语义信息。该发明专利技术根据句子长度和k‑means聚类的方法更加细分了语料中的各种特征,从而提高了维汉机器翻译的翻译质量。

A Uyghur Chinese machine translation system based on clustering algorithm

【技术实现步骤摘要】
一种融合聚类算法的维汉机器翻译系统
本专利技术属于机器翻译领域,具体涉及一种融合聚类算法的维汉机器翻译系统。
技术介绍
机器翻译(MachineTranslation,MT)是利用计算机实现从一种语言翻译成为另一种语言的自动化翻译,大大地降低了人们因语种使用的不同而带来的沟通障碍。在近年来,神经网络机器翻译系统已经取得了长足的进步,已基本取代了传统的统计机器翻译。无论是统计机器翻译还是神经网络机器翻译,他们都依赖大规模的双语平行语料。尽管Transformer模型在资源丰富的语言上明显提升了翻译质量,但是对小语种机器翻译来说语言资源匮乏是一直存在的障碍,对于像维吾尔语类似的小语种而言,急需一个有较好的翻译质量的系统。端到端的神经机器翻译(NeuralMachineTranslation,NMT)系统已经取得了一定的进展,相比于传统的统计机器翻译而言,NMT可以训练从一个序列到另一个序列的神经网络,因此神经网络机器翻译模型的基本结构是基于编码器-解码器(encoder-decoder)结构。结构图如图1所示。给定源语言句子x=(x1,x2本文档来自技高网...

【技术保护点】
1.一种融合聚类算法的维汉机器翻译系统,由使用gensim中的Doc2vec训练维吾尔语句子向量模型;使用k-means方法实现维吾尔语的文本聚类;使用transformer结构训练维汉机器翻译模型;使用微调的方法将聚类后的每一类数据分别微调机器翻译模型得到k个子翻译模型,融合以上方法实现了对维吾尔语的向量化,聚类并训练维汉翻译模型,其特征在于:由于长度较短的句子很难有丰富的语义信息,在进行句子向量化时,短句子会影响句子向量模型的质量进而导致聚类效果不佳,因此在训练句子向量之前先把长度小于10的句子过滤掉,只保留较长的句子。/n

【技术特征摘要】
1.一种融合聚类算法的维汉机器翻译系统,由使用gensim中的Doc2vec训练维吾尔语句子向量模型;使用k-means方法实现维吾尔语的文本聚类;使用transformer结构训练维汉机器翻译模型;使用微调的方法将聚类后的每一类数据分别微调机器翻译模型得到k个子翻译模型,融合以上方法实现了对维吾尔语的向量化,聚类并训练维汉翻译模型,其特征在于:由于长度较短的句子很难有丰富的语义信息,在进行句子向量化时,短句子会影响句子向...

【专利技术属性】
技术研发人员:艾山·吾买尔刘文其斯拉吉艾合麦提·如则麦麦提西热艾力·海热拉早克热·卡德尔买合木提·买买提汪烈军刘胜全
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1