基于专属机翻引擎训练的人机共译系统与方法技术方案

技术编号:25690931 阅读:59 留言:0更新日期:2020-09-18 21:02
本发明专利技术提出一种基于专属机翻引擎训练的人机共译系统、基于反馈训练环信号的人机共译方法以及实现该方法的计算机可读存储介质。本发明专利技术的技术方案包括源文输入组件以及与所述源文输入组件连接的语义识别模块、专属机翻引擎训练环、人机共译窗口、差异比对界面以及反向比对翻译引擎。本发明专利技术的技术方案能够最大程度的利用机器翻译的结果,同时最大可能的针对可能错误的翻译结果进行人工校对,在保证效率的同时,提高了准确度,从而提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性。

【技术实现步骤摘要】
基于专属机翻引擎训练的人机共译系统与方法
本专利技术属于翻译
,尤其涉及一种基于专属机翻引擎训练的人机共译系统、基于反馈训练环信号的人机共译方法以及实现该方法的计算机可读存储介质。
技术介绍
实现高质量机器翻译的梦想已经存在了很多年,很多科学家都为这一梦想贡献了自己的时间和心力。从早期的基于规则的机器翻译到如今广泛应用的神经机器翻译,机器翻译的水平不断提升,已经能满足很多场景的基本应用需求。目前最重要的两种机器翻译方式:规则法和统计法。规则法(rulebasedmachinetranslation,RBMT),依据语言规则对文本进行分析,再借助计算机程序进行翻译。多数商用机器翻译系统采用规则法。统计法(statisticalmachinetranslation,SMT),通过对大量的平行语料进行统计分析,构建统计翻译模型(词汇、比对或是语言模式),进而使用此模型进行翻译,一般会选取统计中出现概率最高的词条作为翻译,概率算法依据贝叶斯定理。假设要把一个英语句子A翻译成汉语,所有汉语句子B,都是A的可能或是非可能的潜在翻译。Pr(A)是类似A表达出现的概率,Pr(B|A)是A翻译成B出现的概率。找到两个参数的最大值,就能缩小句子及其对应翻译检索的范围,从而找出最合适的翻译。SMT根据文本分析程度级别的不同分为两种:基于词的SMT和基于短语的SMT,后一个是目前普遍使用的,Google用的就是这种。翻译文本被自动分为固定长度的词语序列,再对各词语序列在语料库里进行统计分析,以查找到出现对应概率最高的翻译。申请号为CN201910772953.2的中国专利技术专利申请提出一种基于句对的机器翻译引擎测评优选方法及系统,其通过根据选择的语言对、句的领域,对各机器翻译引擎进行多个维度的评分,再对上述评分进行加权求和得到各机器翻译引擎在句上的加权和值,选择加权和值最高的机器翻译引擎输出句的翻译结果,从而整合得到整篇翻译文本。通过上述方法可以使得在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务,能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务,提高翻译效率,减少用户的后续工作量,提供优质的机器翻译服务。申请号为CN201910542364.5的中国专利技术专利申请提出一种基于统计机器学习算法的实体共指消解方法,首先确定实体共指消解的特征,接着进行表述检测,建立分类模型,并通过对分类模型的反复训练和校正,在统计机器学习算法的基础上最终实现对实体共指消解,使得对实体共指消解的准确性高,从而保证了工作在机器翻译,信息抽取以及问答等领域的顺利进行,利于工作的普及和开展。然而,机器翻译虽然快速,但是其准确度依然不能完全满足实际需要。尤其是对于一些重大的涉及敏感问题的待译文档,单纯的仅仅依靠机器翻译的结果是无法满足客户要求的。不管机器翻译或者计算机辅助翻译的方案如何改进,人工编辑校对甚至翻译都不可缺少。目前机器翻译的前沿应用主要体现在两个方面:首先,机器翻译模式进展迅速,以神经网络为基础的翻译模型准确度不断提升,已带给专业译员至少30%的效率提升;其次,交互式机器翻译概念开始被业界接受,人机协作模式正加速落地。在机器思维里,语言的复杂多意性,导致难以实现标准化和一致性。因此,人工智能介入翻译产业比较简单,但做好做精却很不易。机器翻译还会出现遗漏翻译和过度翻译,虽然有多种方法可以解决这类问题,但没有一种方法能做到百分之百纠错。因此,如何平衡人工编辑翻译和机器翻译的工作时间、人工翻译何时接介入、以何种方式介入并且在保证准确度的同时能够满足大规模语义翻译的需要,现有技术并未给出有效的解决方案。
技术实现思路
为解决上述技术问题,本专利技术提出一种基于专属机翻引擎训练的人机共译系统、基于反馈训练环信号的人机共译方法以及实现该方法的计算机可读存储介质。本专利技术的技术方案包括源文输入组件以及与所述源文输入组件连接的语义识别模块、专属机翻引擎训练环、人机共译窗口、差异比对界面以及反向比对翻译引擎。所述差异比对界面通过反向比对翻译引擎连接至所述专属机翻引擎训练环,并接收所述语义识别模块的输出结果后,将反向比对翻译引擎的输出结果与所述语义识别模块的输出结果进行差异比对,并将差异比对结果显示在所述人机共译窗口。本专利技术的技术方案能够最大程度的利用机器翻译的结果,同时最大可能的针对可能错误的翻译结果进行人工校对,在保证效率的同时,提高了准确度,从而提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性。具体而言,在本专利技术的第一个方面,提供一种基于专属机翻引擎训练的人机共译系统,所述人机共译系统包括源文输入组件以及与所述源文输入组件连接的语义识别模块。更具体的,作为体现本专利技术不同于现有技术的关键技术手段之一,所述人机共译系统还包括专属机翻引擎训练环,所述专属机翻引擎训练环接收来自人机共译窗口的反馈训练环信号;所述人机共译窗口分别连接差异比对界面与所述专属机翻引擎训练环,所述专属机翻引擎训练环输出对应于所述源译文的至少一个翻译结果并显示在所述人机共译窗口;所述差异比对界面通过反向比对翻译引擎连接至所述专属机翻引擎训练环,并接收所述语义识别模块的输出结果后,将反向比对翻译引擎的输出结果与所述语义识别模块的输出结果进行差异比对,并将差异比对结果显示在所述人机共译窗口;其中,所述专属机翻引擎训练环包括多个机器翻译引擎与差异训练核心组件,所述差异训练核心组件选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎,并接收所述反馈训练环信号。作为体现本专利技术不同于现有技术的关键技术手段之一,所述专属机翻引擎训练环包括第一机翻引擎、第二机翻引擎与第三机翻引擎,所述专属机翻引擎接收经过所述语义识别模块分析处理的源文后,通过所述第一机翻引擎、第二机翻引擎与第三机翻引擎分别输出第一目标文、第二目标文以及第三目标文;所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度。更具体的,所述专属机翻引擎训练环基于所述差异度与相似度,输出对应于所述源文的翻译结果至所述人机共译窗口。所述差异训练核心组件基于所述差异度与相似度选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎。值得指出的是,在本专利技术中,能够基于所述人机共译窗口的编辑操作,自动生成所述反馈训练环信号。为了获得更好的翻译效果,所述语义识别模块接收所述源文输入组件输入的待译源文后,对其进行语义识别,将其拆分为以段落为单位的待译段落子集和/或以句子为单位的待译句子子集。作为体现本专利技术创造性的关键技术手段,所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度,得到相似度矩阵与差异度矩阵,基于所述相似度矩阵与差异度矩阵的组合计算结果,选择所述第一目标文、第二目标文以及第三目标文之一作为所述对应于所述源文的翻译结果。与之相组合的配本文档来自技高网
...

【技术保护点】
1.一种基于专属机翻引擎训练的人机共译系统,所述人机共译系统包括源文输入组件以及与所述源文输入组件连接的语义识别模块,/n其特征在于:/n所述人机共译系统还包括专属机翻引擎训练环,所述专属机翻引擎训练环接收来自人机共译窗口的反馈训练环信号;/n所述人机共译窗口分别连接差异比对界面与所述专属机翻引擎训练环,所述专属机翻引擎训练环输出对应于所述源译文的至少一个翻译结果并显示在所述人机共译窗口;/n所述差异比对界面通过反向比对翻译引擎连接至所述专属机翻引擎训练环,并接收所述语义识别模块的输出结果后,将反向比对翻译引擎的输出结果与所述语义识别模块的输出结果进行差异比对,并将差异比对结果显示在所述人机共译窗口;/n其中,所述专属机翻引擎训练环包括多个机器翻译引擎与差异训练核心组件,所述差异训练核心组件选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎,并接收所述反馈训练环信号。/n

【技术特征摘要】
1.一种基于专属机翻引擎训练的人机共译系统,所述人机共译系统包括源文输入组件以及与所述源文输入组件连接的语义识别模块,
其特征在于:
所述人机共译系统还包括专属机翻引擎训练环,所述专属机翻引擎训练环接收来自人机共译窗口的反馈训练环信号;
所述人机共译窗口分别连接差异比对界面与所述专属机翻引擎训练环,所述专属机翻引擎训练环输出对应于所述源译文的至少一个翻译结果并显示在所述人机共译窗口;
所述差异比对界面通过反向比对翻译引擎连接至所述专属机翻引擎训练环,并接收所述语义识别模块的输出结果后,将反向比对翻译引擎的输出结果与所述语义识别模块的输出结果进行差异比对,并将差异比对结果显示在所述人机共译窗口;
其中,所述专属机翻引擎训练环包括多个机器翻译引擎与差异训练核心组件,所述差异训练核心组件选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎,并接收所述反馈训练环信号。


2.如权利要求1所述的人机共译系统,其特征在于:所述专属机翻引擎训练环包括第一机翻引擎、第二机翻引擎与第三机翻引擎,所述专属机翻引擎接收经过所述语义识别模块分析处理的源文后,通过所述第一机翻引擎、第二机翻引擎与第三机翻引擎分别输出第一目标文、第二目标文以及第三目标文;所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度。


3.如权利要求2所述的人机共译系统,其特征在于:所述专属机翻引擎训练环基于所述差异度与相似度,输出对应于所述源文的翻译结果至所述人机共译窗口。


4.如权利要求2所述的人机共译系统,其特征在于:所述差异训练核心组件基于所述差异度与相似度选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎。


5.如权利要求1所述的人机共译系统,其特征在于:基于所述人机共译窗口的编辑操作,自动生成所述反馈训练环信号。


6.如权利要求1所述的人机共译系统,其特征在于:所述语义识别模块接收所述源文输入组件输入的待译源文后,对其进行语义识别,将其拆分为以段落为单位的待译段落子集和/或以句子为单位的待译句子子集。


7.如权利要求3或4所述的人机共译系统,其特征在于:所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度,得到相似度矩阵与...

【专利技术属性】
技术研发人员:王莲
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1