ETM架构及词移距离制造技术

技术编号:19965570 阅读:31 留言:0更新日期:2019-01-03 13:31
本发明专利技术涉及基于ETM的质量评估。提出了一种基于ETM的翻译质量评估系统,包括翻译阵列模块、待译语料输入模块、译员测试模块、翻译质量得分显示模块以及ETM模块,所述翻译阵列模块和译员测试模块分别于所述ETM模块数据连接,所述待译语料输入模块将待译语料输入所述翻译阵列模块,所述翻译阵列模块将所述待译语料的至少一个翻译结果输出至所述ETM模块;所述ETM模块基于所述翻译阵列模块输出的至少一个翻译结果与所述译员测试模块输入的测试结果,对所述译员的翻译质量进行评分,并将结果显示在所述翻译质量得分显示模块上。

ETM Architecture and Word Shift Distance

The present invention relates to quality assessment based on ETM. A translation quality evaluation system based on ETM is proposed, which includes translation array module, input module of untranslated corpus, interpreter test module, translation quality score display module and ETM module. The translation array module and the interpreter test module are connected with the ETM module respectively. The untranslated corpus input module inputs the untranslated corpus into the translation array module, and the translation module is translated into the translation array module. The translation array module outputs at least one translation result of the untranslated corpus to the ETM module; the ETM module scores the translation quality of the interpreter based on at least one translation result output by the translation array module and the test result input by the interpreter test module, and displays the result on the translation quality score display module.

【技术实现步骤摘要】
ETM架构及词移距离
本专利技术涉及ETM架构及词移距离,更具体的,涉及一种基于ETM(EvaluationTransformerMachine)及词移距离的翻译质量评估系统。
技术介绍
当前,评价一个人的书面翻译能力,主要通过各种测试方式对其进行打分评价。例如,采用主观题和客观题相结合的考试评分方法。对于客观题而言,候选者只需要选择出正确的候选项就可以得分,这部分评分工作可以通过机器统计测试完成;对于主观题而言,由于不同的翻译者对同一待译条目给出的翻译各不相同,而通常出题者给出的参考答案有限,如果采用简单的机器统计,则极易产生误判,因为很可能出现不同翻译者给出的各不相同的翻译结果有可能和参考答案均不相同,但是却均是正确答案的情况。此时,通常引入人工评卷的手段。但是,当试卷的数量巨大,如果每一份试卷均采用人工评卷,则必将显著提升测试工作量,增加测试成本。而在实际场景中,在译员翻译以及考核译员的时候,都会有一个对译员的翻译质量进行评价的过程,这一过程也都是有相应的翻译指导教师进行,非常的耗费人力,同时又很强的主观性。
技术实现思路
为解决现有的翻译能力评估以及翻译质量评估存在的问题,本专利技术提出了一种多语言翻译中译员翻译质量自动评价引擎,能够借助多种机器翻译引擎的共同结果,自动化的给出译员翻译的翻译质量评价得分。在本专利技术的第一个方面,提出了一种基于ETM的翻译质量评估系统,包括翻译阵列模块、待译语料输入模块、译员测试模块、翻译质量得分显示模块以及ETM模块,所述翻译阵列模块和译员测试模块分别于所述ETM模块数据连接,所述待译语料输入模块将待译语料输入所述翻译阵列模块,所述翻译阵列模块将所述待译语料的至少一个翻译结果输出至所述ETM模块;所述ETM模块基于所述翻译阵列模块输出的至少一个翻译结果与所述译员测试模块输入的测试结果,对所述译员的翻译质量进行评分,并将结果显示在所述翻译质量得分显示模块上;具体而言,所述ETM模块名为EvaluationTransformerMachine,是基于已有的译员翻译质量数据以及所述待译语料的多种已有翻译结果训练得出的机器学习引擎;所述机器学习引擎基于所述翻译阵列模块输出的至少一个翻译结果与所述译员测试模块输入的测试结果进行拟合,基于拟合结果得出所述翻译质量评分。在具体实现上,所述ETM模块包括海量语料库、分布式高速计算框架Spark以及AdaBoosting模型;所述分布式高速计算框架Spark包括高速训练模块和高速预测模块,基于加载的AdaBoosting模型输出所述翻译质量评分。实际实现时,所述翻译阵列模块包括多种翻译引擎,每种翻译引擎独立输出相应的翻译结果。例如,准备一个多种翻译引擎组合而成的翻译阵列,包括Baidu、google、搜狗、微软、有道等主流的翻译引擎。此翻译阵列包含了很多的多语种的高质量翻译引擎,所以只要聚合多种引擎组成翻译阵列的原因在于,对于多语种和细分领域来说,没有一种引擎能够在所有领域保证高质量的翻译结果,聚合尽量多的引擎,就能够最大程度的保证了作为评价基础数据的引擎输出,最少有一个可靠的评价数据。进一步的,所述ETM模块基于已有的译员翻译质量数据以及所述待译语料的多种已有翻译结果进行机器学习得到拟合函数,将所述译员测试模块输入的测试结果代入所述拟合函数,即可输出翻译质量评分。例如,基于一个通过数据训练得出的ETM:ETM通过机器学习方式得到一个拟合函数,此拟合函数通过翻译引擎得到翻译输出作为评价基础数据,来拟合译员的翻译结果,然后通过拟合结果和译员翻译结果计算词移距离,此词移距离就可以作为译员翻译质量的评价,距离越小,则翻译质量越高;考虑不同翻译引擎,如果至少一个翻译引擎有一个翻译较准确的数据,ETM就能够有一个可以做出评价的基础(拟合函数对于这个正确的评价数据的权重会较高),那么ETM就能够较有效的对其翻译结果做出评价。其中,所述ETM模块将所述译员测试模块输入的测试结果与所述翻译阵列模块输出的至少一个翻译结果进行比较,计算词移距离,根据所述词移距离得出所述翻译质量评分。作为一个优选,所述词移距离是以word2vec为基础,来计算2个文档间的词移相似性及其权重。作为另一个优选,所述词移距离的计算是基于近义词知识库进行。此外,本专利技术的ETM还可以动态更新,当测试人员给出更好结果时,可以将该结果保存并更新ETM,使得今后的评估结果更加准确。即还包括ETM更新引擎,当所述翻译质量得分满足预先设定的第一条件时,ETM更新引擎保存所述译员测试模块输入的测试结果,并对所述ETM模块进行更新。这里的第一条件,可以是设定的分数阈值。例如,当测试人员的评分高于80分,则认为翻译结果较好,将该翻译结果保存到ETM中进行更新。最重要的是,本专利技术还包括人工反馈模块,当所述翻译质量得分满足预先设定的第二条件时,所述人工反馈模块给出反馈提示。之所以设置人工反馈模块,是因为专利技术人在长期的工作实践中发现,机器翻译不可能永远准确,机器翻译永远是机械的,其给出的翻译结果没有文采体现。而语言翻译则是一个潜力无穷的过程,在文学上,很可能出现,不同翻译者给出的各不相同的翻译结果有可能和参考答案均不相同,但是却均是正确答案的情况。此时,ETM模块评分结果却可能直接评分为零,从而导致误判。此时,需要人工反馈模块予以纠正。在此,进一步包括,根据所述人工反馈模块给出的反馈提示,决定所述ETM更新引擎是否执行所述保存操作和/或更新操作。例如,ETM模块评分结果出现极端低分,例如零分时,根据反馈提示,决定ETM更新引擎是否操作。此时,有可能是测试者给出了较为精妙的翻译结果,但是翻译阵列没有收录/ETM无法识别等。有关这一情况的更具体的例子将在本专利技术的实施例部分详细阐述。在本专利技术的第二个方面,提出了一种翻译质量评估的方法,采用前述的翻译质量评估系统对翻译人员进行翻译质量评估的方法,所述方法采用计算机系统实现。所书方法包括如下步骤:(1)通过训练得到所述ETM;(2)针对同一待译语料,基于所述测试人员给出的测试结果与所述翻译阵列给出的翻译结果,所述ETM给出翻译质量得分;(3)基于所述翻译质量评分,决定是否更新所述ETM;其中,决定是否更新所述ETM还包括:判断所述翻译质量得分是否满足所述第一条件或者第二条件。具体实现时,该方法包括如下计算机可执行的步骤:S1海量语料通过“分布式高速计算框架Spark”中“高速训练模块”进行训练得到模型AdaBoosting;S2“分布式高速计算框架Spark”中“高速预测模块”通过加载AdaBoosting模型来对译员翻译进行翻译质量评分;S3系统返回译员的翻译质量得分。本专利技术的技术方案的主要创新之处包括:1)通过数据驱动的机器学习得到ETM,摒弃了以前通过人工评价耗时耗力的过程,同时ETM又是从海量从前积累下来的人工评价数据中学习得到的,保证了评价的可靠性以及一致性;2)采用翻译阵列进行评价基础,此翻译阵列收集了几乎全世界各个语种的翻译引擎组成翻译阵列,保证了在无论在任何一个语种,任何一个细分翻译领域,都会有一个较权威的翻译输出作为评价基础。3)综合考虑了常规的较高质量翻译结果与非常规的精妙翻译结果,不至于让简单的机械的机器翻译产生误判。4)采用词移距离而本文档来自技高网...

【技术保护点】
1.一种基于ETM架构的翻译质量评估系统,包括翻译阵列模块、待译语料输入模块、译员测试模块、翻译质量得分显示模块以及ETM模块,所述翻译阵列模块和译员测试模块分别于所述ETM模块数据连接,所述待译语料输入模块将待译语料输入所述翻译阵列模块,所述翻译阵列模块将所述待译语料的至少一个翻译结果输出至所述ETM模块;所述ETM模块基于所述翻译阵列模块输出的至少一个翻译结果与所述译员测试模块输入的测试结果,对所述译员的翻译质量进行评分,并将结果显示在所述翻译质量得分显示模块上;其特征在于,所述ETM模块包括海量语料库、分布式高速计算框架Spark以及AdaBoosting模型;所述分布式高速计算框架Spark包括高速训练模块和高速预测模块,基于加载的AdaBoosting模型输出所述翻译质量评分。

【技术特征摘要】
1.一种基于ETM架构的翻译质量评估系统,包括翻译阵列模块、待译语料输入模块、译员测试模块、翻译质量得分显示模块以及ETM模块,所述翻译阵列模块和译员测试模块分别于所述ETM模块数据连接,所述待译语料输入模块将待译语料输入所述翻译阵列模块,所述翻译阵列模块将所述待译语料的至少一个翻译结果输出至所述ETM模块;所述ETM模块基于所述翻译阵列模块输出的至少一个翻译结果与所述译员测试模块输入的测试结果,对所述译员的翻译质量进行评分,并将结果显示在所述翻译质量得分显示模块上;其特征在于,所述ETM模块包括海量语料库、分布式高速计算框架Spark以及AdaBoosting模型;所述分布式高速计算框架Spark包括高速训练模块和高速预测模块,基于加载的AdaBoosting模型输出所述翻译质量评分。2.如权利要求1所述的系统,其中,所述翻译阵列模块包括多种翻译引擎,每种翻译引擎独立输出相应的翻译结果。3.如权利要求1或2所述的系统,其中,所述ETM模块基于已有的译员翻译质量数据以及所述待译语料的多种已有翻译结果进行机器学习得到拟合函数,将所述译员测试模块输入的测试结果代入所述拟合函数,即可输出翻译质量评分。4.如权利要求3所述的系统,其中,所述ETM模块将所述译员测试模块输入的测试结果与所述翻译阵...

【专利技术属性】
技术研发人员:刘国
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1