【技术实现步骤摘要】
一种融合聚类算法的维汉机器翻译系统
本专利技术属于机器翻译领域,具体涉及一种融合聚类算法的维汉机器翻译系统。
技术介绍
机器翻译(MachineTranslation,MT)是利用计算机实现从一种语言翻译成为另一种语言的自动化翻译,大大地降低了人们因语种使用的不同而带来的沟通障碍。在近年来,神经网络机器翻译系统已经取得了长足的进步,已基本取代了传统的统计机器翻译。无论是统计机器翻译还是神经网络机器翻译,他们都依赖大规模的双语平行语料。尽管Transformer模型在资源丰富的语言上明显提升了翻译质量,但是对小语种机器翻译来说语言资源匮乏是一直存在的障碍,对于像维吾尔语类似的小语种而言,急需一个有较好的翻译质量的系统。端到端的神经机器翻译(NeuralMachineTranslation,NMT)系统已经取得了一定的进展,相比于传统的统计机器翻译而言,NMT可以训练从一个序列到另一个序列的神经网络,因此神经网络机器翻译模型的基本结构是基于编码器-解码器(encoder-decoder)结构。结构图如图1所示。给定源语言 ...
【技术保护点】
1.一种融合聚类算法的维汉机器翻译系统,由使用gensim中的Doc2vec训练维吾尔语句子向量模型;使用k-means方法实现维吾尔语的文本聚类;使用transformer结构训练维汉机器翻译模型;使用微调的方法将聚类后的每一类数据分别微调机器翻译模型得到k个子翻译模型,融合以上方法实现了对维吾尔语的向量化,聚类并训练维汉翻译模型,其特征在于:由于长度较短的句子很难有丰富的语义信息,在进行句子向量化时,短句子会影响句子向量模型的质量进而导致聚类效果不佳,因此在训练句子向量之前先把长度小于10的句子过滤掉,只保留较长的句子。/n
【技术特征摘要】
1.一种融合聚类算法的维汉机器翻译系统,由使用gensim中的Doc2vec训练维吾尔语句子向量模型;使用k-means方法实现维吾尔语的文本聚类;使用transformer结构训练维汉机器翻译模型;使用微调的方法将聚类后的每一类数据分别微调机器翻译模型得到k个子翻译模型,融合以上方法实现了对维吾尔语的向量化,聚类并训练维汉翻译模型,其特征在于:由于长度较短的句子很难有丰富的语义信息,在进行句子向量化时,短句子会影响句子向...
【专利技术属性】
技术研发人员:艾山·吾买尔,刘文其,斯拉吉艾合麦提·如则麦麦提,西热艾力·海热拉,早克热·卡德尔,买合木提·买买提,汪烈军,刘胜全,
申请(专利权)人:新疆大学,
类型:发明
国别省市:新疆;65
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。