基于逆向矩阵分析的人机反馈翻译方法与系统技术方案

技术编号:25690925 阅读:43 留言:0更新日期:2020-09-18 21:02
本发明专利技术提出一种基于逆向矩阵分析的人机反馈翻译方法、一种具备反馈调节的人机共译系统以及实现所述方法的计算机可读存储介质。所述方法包括接收待译文档、对所述待译文档进行语义识别以及利用组合机器翻译工具对其进行翻译后生成相似度矩阵以及差异度矩阵从而选择逆向翻译引擎比对差异进行人机共译的过程。采用本发明专利技术的技术方案可提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性,从而实现在保证准确度的同时能够满足大规模语义翻译的需要。

【技术实现步骤摘要】
基于逆向矩阵分析的人机反馈翻译方法与系统
本专利技术属于翻译
,尤其涉及一种基于逆向矩阵分析的人机反馈翻译方法、一种具备反馈调节的人机共译系统以及实现所述方法的计算机可读存储介质。
技术介绍
机器翻译其实是利用计算机把一种自然语言翻译成另一种自然语言的过程,基本流程大概分为三块:预处理、核心翻译、后处理。预处理是对语言文字进行规整,把过长的句子通过标点符号分成几个短句子,过滤一些语气词和与意思无关的文字,将一些数字和表达不规范的地方,归整成符合规范的句子。核心翻译模块是将输入的字符单元、序列翻译成目标语言序列的过程,这是机器翻译中最关键最核心的地方。后处理模块是将翻译结果进行大小写的转化、建模单元进行拼接,特殊符号进行处理,使得翻译结果更加符合人们的阅读习惯。实现高质量机器翻译的梦想已经存在了很多年,很多科学家都为这一梦想贡献了自己的时间和心力。从早期的基于规则的机器翻译到如今广泛应用的神经机器翻译,机器翻译的水平不断提升,已经能满足很多场景的基本应用需求。在大规模的翻译工程时代,机器翻译工具的使用不可避免。然而,机器翻译的局限性导致其不可能完全替代人工翻译。尽管如此,如果选择了正确的翻译工具,翻译效率将大大提高,这是不可否认的。现有技术已经存在各种不同语言之间的翻译工具与机器翻译引擎,包括各种伴随人工智能、大数据、深度学习技术发展起来的优化的机器翻译方案。目前最重要的两种机器翻译方式:规则法和统计法。规则法(rulebasedmachinetranslation,RBMT),依据语言规则对文本进行分析,再借助计算机程序进行翻译。多数商用机器翻译系统采用规则法。统计法(statisticalmachinetranslation,SMT),通过对大量的平行语料进行统计分析,构建统计翻译模型(词汇、比对或是语言模式),进而使用此模型进行翻译,一般会选取统计中出现概率最高的词条作为翻译,概率算法依据贝叶斯定理。假设要把一个英语句子A翻译成汉语,所有汉语句子B,都是A的可能或是非可能的潜在翻译。Pr(A)是类似A表达出现的概率,Pr(B|A)是A翻译成B出现的概率。找到两个参数的最大值,就能缩小句子及其对应翻译检索的范围,从而找出最合适的翻译。SMT根据文本分析程度级别的不同分为两种:基于词的SMT和基于短语的SMT,后一个是目前普遍使用的,Google用的就是这种。翻译文本被自动分为固定长度的词语序列,再对各词语序列在语料库里进行统计分析,以查找到出现对应概率最高的翻译。申请号为CN201910772953.2的中国专利技术专利申请提出一种基于句对的机器翻译引擎测评优选方法及系统,其通过根据选择的语言对、句的领域,对各机器翻译引擎进行多个维度的评分,再对上述评分进行加权求和得到各机器翻译引擎在句上的加权和值,选择加权和值最高的机器翻译引擎输出句的翻译结果,从而整合得到整篇翻译文本。通过上述方法可以使得在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务,能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务,提高翻译效率,减少用户的后续工作量,提供优质的机器翻译服务。申请号为CN201810063565.2的中国专利技术专利申请提出一种基于深度学习的专业领域机器同步翻译装置及方法,推动同声传译从译员同传(HumanSI)向机辅同传(Computer-aidedSI),再向最终的机器口译(MachineSI)发展。基于深度学习来一方面解决译员在同声传译现场出现的听不懂、记不住、译不出的困难,提高术语和固有表达的双语转换正确率,另一方面译员可以根据机器翻译在线即时进行译后编辑,提高译语的信息量,而且在一些场景能够替代译员实现延时一秒以内的准实时的同声传译功能。申请号为CN201710203439.8的中国专利技术专利申请提出一种多语言智能预处理实时统计机器翻译系统,能够把一种语言的句子,篇章实时翻译成另一种语言,该系统能够翻译句子完整,表达正确,带有标点符号的文本语言,也能翻译没有段落分割,句子可能不完整,没有标点符号,句子里有噪音的语音;提高了对小概率词语、短语的翻译准确度,即将数字、日期、时间、URL等小概率词语分别标注并优先翻译;本专利技术的预处理模块能够对输入的句子进行规范化处理;本专利技术的后处理模块能够提高翻译结果的流畅度。虽然机器翻译对翻译行业带来的冲击是致命的,承担不要求准确度的简单翻译任务的普通翻译人员将被机器彻底取代。但是,对于专业领域的翻译工作,目前看来,机器还不能胜任。但不能翻译的原因并不是其内容上有多么艰涩。事实上,专业领域翻译的难度其实不高,每个领域除了业内惯用的专有词汇以外,句法上往往还是严谨规范的写法居多,但专业翻译要求极高的准确性,机器无法承担出现错误所导致的严重后果。很多时候,一些过于专门的文件的翻译工作往往是由其领域的专业人士亲自上阵翻译的,这也解释了为什么一些概念的翻译极端拗口,符合逻辑而缺乏美感。然而,在大规模翻译工程时代,仅仅依靠人工翻译显然不能满足效率需要,而一味的依靠机器翻译则无法满足准确度需要。不管机器翻译或者计算机辅助翻译的方案如何改进,人工编辑校对甚至翻译都不可缺少。此外,翻译人员通常根据经验、使用习惯结合翻译工具的特点来选择一种翻译工具,一旦选定,则基本不变。然而,实践发现,不同的翻译工具的内核不同,对于同一种待译文本通常给出不同的结果;此外,对于相同的一份待译资料,其中不同的子部分,同一翻译工具的结果准确度也不一样。现有翻译人员对此通常十分困惑,并在多种翻译工具中来回徘徊,疲于选择翻译工具以及校对翻译结果。此类种种,原本用于提高翻译效率的翻译工具反而成了拖慢翻译节奏的累赘。可见,如何平衡人工编辑翻译和机器翻译的工作时间、人工翻译何时接介入、以何种方式介入并且在保证准确度的同时能够满足大规模语义翻译的需要,现有技术并未给出有效的解决方案。
技术实现思路
为解决上述技术问题,本专利技术提出一种基于逆向矩阵分析的人机反馈翻译方法、一种具备反馈调节的人机共译系统以及实现所述方法的计算机可读存储介质。所述方法包括接收待译文档、对所述待译文档TobeDoc进行语义识别以及利用组合机器翻译工具对其进行翻译后生成相似度矩阵以及差异度矩阵从而选择逆向翻译引擎比对差异进行人机共译的过程。采用本专利技术的技术方案可提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性,从而实现在保证准确度的同时能够满足大规模语义翻译的需要。具体来说,在本专利技术的第一个方面,提供基于逆向矩阵分析的人机反馈翻译方法,所述方法包括如下步骤:S1:接收待译文档TobeDoc;S2:对所述待译文档TobeDoc进行语义识别,得到以语义句子为单位的语义句子集TobeSen,所述语义句子集TobeSen由多个语义句子Seni组成,i=1,2,……为正整数;S3:对所述语义句子集TobeSen中的每一个语义句子Seni,执行如本文档来自技高网
...

【技术保护点】
1.一种基于逆向矩阵分析的人机反馈翻译方法,所述方法包括如下步骤:/nS1:接收待译文档TobeDoc;/nS2:对所述待译文档TobeDoc进行语义识别,得到以语义句子为单位的语义句子集TobeSen,所述语义句子集TobeSen由多个语义句子Seni组成,i=1,2,……为正整数;/nS3:对所述语义句子集TobeSen中的每一个语义句子Seni,执行如下翻译处理过程,直到所有语义句子均被翻译处理:/nF001:对于每一个语义句子Seni,利用组合机器翻译工具对其进行翻译,输出至少三个目标译文Y1、Y2、Y3;/n其中,所述组合机器翻译工具包括至少三个机器翻译引擎,所述三个目标译文Y1、Y2、Y3分别由所述三个机器翻译引擎输出;/nF002:分别计算三个目标译文Y1、Y2、Y3两两之间的相似度Sij与差异度Dij,从而得到相似度矩阵Sm与差异度矩阵Dm;/nF003:基于所述相似度矩阵与差异度矩阵,选择三个目标译文Y1、Y2、Y3之一作为每一个语义句子Seni的翻译结果;/nF004:基于所述相似度矩阵与差异度矩阵,选择所述三个目标译文Y1、Y2、Y3之一对应的机器翻译引擎作为逆向翻译引擎,所述逆向翻译引擎选择三个目标译文Y1、Y2、Y3之一,将其逆向翻译;/nF005:将所述逆向翻译的结果与所述语义句子Seni的差异度对比显示在人机共译界面。/n...

【技术特征摘要】
1.一种基于逆向矩阵分析的人机反馈翻译方法,所述方法包括如下步骤:
S1:接收待译文档TobeDoc;
S2:对所述待译文档TobeDoc进行语义识别,得到以语义句子为单位的语义句子集TobeSen,所述语义句子集TobeSen由多个语义句子Seni组成,i=1,2,……为正整数;
S3:对所述语义句子集TobeSen中的每一个语义句子Seni,执行如下翻译处理过程,直到所有语义句子均被翻译处理:
F001:对于每一个语义句子Seni,利用组合机器翻译工具对其进行翻译,输出至少三个目标译文Y1、Y2、Y3;
其中,所述组合机器翻译工具包括至少三个机器翻译引擎,所述三个目标译文Y1、Y2、Y3分别由所述三个机器翻译引擎输出;
F002:分别计算三个目标译文Y1、Y2、Y3两两之间的相似度Sij与差异度Dij,从而得到相似度矩阵Sm与差异度矩阵Dm;
F003:基于所述相似度矩阵与差异度矩阵,选择三个目标译文Y1、Y2、Y3之一作为每一个语义句子Seni的翻译结果;
F004:基于所述相似度矩阵与差异度矩阵,选择所述三个目标译文Y1、Y2、Y3之一对应的机器翻译引擎作为逆向翻译引擎,所述逆向翻译引擎选择三个目标译文Y1、Y2、Y3之一,将其逆向翻译;
F005:将所述逆向翻译的结果与所述语义句子Seni的差异度对比显示在人机共译界面。


2.如权利要求1所述的人机反馈翻译方法,其特征在于:
所述步骤F003具体包括:
查找所述相似度矩阵Sm中最大元素值Smax;
查找所述差异度矩阵Dm中最小元素值Dmin;
将所述最大元素值Smax与最小元素值...

【专利技术属性】
技术研发人员:何征宇
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1