一种基于GMM的机翻引擎测试方法与翻译工具包技术

技术编号:23891830 阅读:27 留言:0更新日期:2020-04-22 06:47
本发明专利技术提出一种基于GMM的机翻引擎测试方法与翻译工具包。所述测试方法使用基于Openkiwi的评测引擎;所述评测引擎包括基于句子级别的评测引擎和基于词语级别的评测引擎;基于句子级别评分数值以及词语级别评分数值,构建评测矩阵PN,基于所述评测矩阵PN的迭代计算结果,判断是否通过人工反馈输入接口输入人工反馈参数。本发明专利技术还提出一种包含评测引擎的翻译工具包,所述翻译工具包包含至少一个翻译工具,并内置所述的基于Openkiwi的评测引擎,从而实现所述测试方法。

A GMM Based Test Method and translation toolkit for MT engine

【技术实现步骤摘要】
一种基于GMM的机翻引擎测试方法与翻译工具包
本专利技术属于测试
,尤其涉及一种基于GMM的机翻引擎测试方法与翻译工具包。
技术介绍
机器翻译(MachineTranslation,MT),又称为自动翻译,是利用计算机程序将文字从一种自然语言(源语言)翻译成另一种自然语言(目标语言)。它是自然语言处理(NaturalLanguageProcessing)的一个分支,与计算语言学(ComputationalLinguistics)、自然语言理解(NaturalLanguageUnderstanding)之间存在着密不可分的关系。在人工智能火热的时代,当下的机器翻译引擎众多,译员应该如何选择适合自己的翻译引擎,成为一个亟待解决的技术问题;同时,已有的翻译引擎如何根据实际翻译结果以及人工反馈不断进化选择,已经成为制约翻译效率的重要因素。机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。由于机器翻译所处理的对象——语言本身存在某种程度的歧义,无法像数学公式或者物理模型那样简单客观地描述出本文档来自技高网...

【技术保护点】
1.一种基于GMM的机翻引擎测试方法,所述方法包括如下步骤:/nC100:输入测试源文档;/nC200:采用GMM聚类模型对所述测试源文档进行聚类分类,并输出测试源文档所在类别;/nC300:基于所述测试源文档所在类别以及类别到最佳引擎映射表进行映射计算,从翻译矩阵中得出所在类别对应的翻译引擎;/nC400:输出所有翻译引擎对应的翻译结果;/n其特征在于,在所述步骤C400之后,还包括如下步骤:/nC500:将所述翻译结果输入自动评测模型,得出质量评测得分;/n并且,基于所述质量评测得分,对基础数据进行更新后,反馈给所述聚类模型;/n其中,所述自动评测模型还连接人工反馈输入接口;/n所述自动评...

【技术特征摘要】
1.一种基于GMM的机翻引擎测试方法,所述方法包括如下步骤:
C100:输入测试源文档;
C200:采用GMM聚类模型对所述测试源文档进行聚类分类,并输出测试源文档所在类别;
C300:基于所述测试源文档所在类别以及类别到最佳引擎映射表进行映射计算,从翻译矩阵中得出所在类别对应的翻译引擎;
C400:输出所有翻译引擎对应的翻译结果;
其特征在于,在所述步骤C400之后,还包括如下步骤:
C500:将所述翻译结果输入自动评测模型,得出质量评测得分;
并且,基于所述质量评测得分,对基础数据进行更新后,反馈给所述聚类模型;
其中,所述自动评测模型还连接人工反馈输入接口;
所述自动评测模型是基于Openkiwi的评测引擎;所述评测引擎包括基于句子级别的评测引擎和基于词语级别的评测引擎。


2.如权利要求1所述的测试方法,其特征在于:所述类别到最佳引擎映射表,是将某个类别的最佳翻译引擎,或者最后几个翻译引擎的排序进行映射的表。


3.如权利要求1所述的测试方法,其中,所述翻译矩阵将多个引擎集中整合到一起,形成一个统一对外的调用产品。


4.如权利要求1所述的测试方法,其中,Openkiwi是以pytorch为基础开发的一个深度翻译质量评测框架。


5.如权利要求1所述的测试方法,其中,输出测试源文档所在类别,包括,输出所述测试源文档聚类后所述的多个类别;所述从翻译矩阵中得出所在类别对应的翻译引擎,包括,得出每一个类别对应的多个翻译引擎。

【专利技术属性】
技术研发人员:何征宇夏菲
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1