基于上下文语义比对的人机协同翻译系统与方法技术方案

技术编号:25690923 阅读:35 留言:0更新日期:2020-09-18 21:02
本发明专利技术提出基于上下文语义比对的人机协同翻译系统与方法。所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎,所述文档拆分识别引擎至少包含两个输出结果识别分支,所述输出结果识别分支包括第一识别分支和第二识别分支;所述第一识别分支连接至句子上下文抽取引擎;所述第二识别分支连接至段落上下文抽取引擎,并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎;本发明专利技术的技术方案在翻译过程中的多个阶段充分利用上下文概念以及机器翻译引擎的相互对比结果,从而提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性。

【技术实现步骤摘要】
基于上下文语义比对的人机协同翻译系统与方法
本专利技术属于人机协同
,尤其涉及一种基于多机器引擎上下文比对结果的协同翻译系统、基于上下文语义对比的人机协同翻译方法以及实现所述方法的计算机可读存储介质。
技术介绍
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。机译系统可划分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者由词典和规则库构成知识源;后者由经过划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。机译系统是随着语料库语言学的兴起而发展起来的,世界上绝大多数机译系统都采用以规则为基础的策略,一般分为语法型、语义型、知识型和智能型。不同类型的机译系统由不同的成分构成。抽象地说,所有机译系统的处理过程都包括以下步骤:对源语言的分析或理解,在语言的某一平面进行转换,按目标语言结构规则生成目标语言。随着全球化和信息化的不断推进,海量的翻译需求给语言服务行业带来了前所未有的机遇和挑战。将计算机辅助翻译、机器翻译集成为译员打造新的翻译工作环境已经是目前主流发展趋势。计算机辅助翻译(Computeraidedtranslation,CAT)类似于CAD(计算机辅助设计),能够帮助翻译者优质、高效、轻松地完成翻译工作。它不同于以往的机器翻译软件,不依赖于计算机的自动翻译,而是在人的参与下完成整个翻译过程。与人工翻译相比,质量相同或更好,翻译效率可提高一倍以上。CAT使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。在翻译过程中,存在着大量重复或相似的句子和片段。采用人工笔译哪怕是最简单的句子,也需要书写一遍。CAT技术具有自动记忆和搜索机制,可以自动存储用户翻译的内容。当用户翻译某个句子时,系统自动搜索用户已经翻译过的句子,如果当前翻译的句子用户曾经翻译过,会自动给出以前的翻译结果;对于相似的句子,也会给出翻译参考和建议。现有技术已经提出多种机器翻译或者计算机辅助翻译的技术方案。申请号为CN201810063565.2的中国专利技术专利提出一种基于深度学习的专业领域机器同步翻译装置及方法,利用该专利技术的技术方案,可推动同声传译从译员同传(HumanSI)向机辅同传(Computer-aidedSI),再向最终的机器口译(MachineSI)发展。基于深度学习来一方面解决译员在同声传译现场出现的听不懂、记不住、译不出的困难,提高术语和固有表达的双语转换正确率,另一方面译员可以根据机器翻译在线即时进行译后编辑,提高译语的信息量,而且在一些场景能够替代译员实现延时一秒以内的准实时的同声传译功能;申请号为CN201710877018.3的中国专利技术专利申请则提出基于双语片段的交互式机器翻译方法,该方法改进了交互协议,允许译员确认双语片段,给译员提供更多的线索,并给予解码器更直接的指导,减少人机交互过程中的人类劳动,促进交互式机器翻译效率和翻译质量的提升,确认双语片段比从错误的译文中识别正确的片段更容易;并且还设计了一个面向真实译员的界面,允许译员拆分和合并切分后的短语,并提供了增加翻译选项多样性的重排序方法,这些都有助于提高真实场景中的交互式翻译效率;中国科学院自动化研究所提交的专利申请“人机交互翻译模型的更新方法及更新系统”(申请号CN201611170954.2)也提出人机交互翻译模型的更新方法及更新系统,该方案提出的人机交互翻译模型的更新方法通过引入用户反馈的人工翻译译文,通过对目标语言句子及源语言句子进行分词处理、对齐、抽取短语翻译知识以实时更新基于在线随机森林的机器翻译模型,缓解重复出现相同的翻译错误。然而,机器翻译虽然快速,但是其准确度依然不能完全满足实际需要。尤其是对于一些重大的涉及敏感问题的待译文档,单纯的仅仅依靠机器翻译的结果是无法满足客户要求的。不管机器翻译或者计算机辅助翻译的方案如何改进,人工编辑校对甚至翻译都不可缺少。然而,如何平衡人工编辑翻译和机器翻译的工作时间、人工翻译何时接介入、以何种方式介入并且在保证准确度的同时能够满足大规模语义翻译的需要,现有技术并未给出有效的解决方案。
技术实现思路
为解决上述技术问题,本专利技术提出一种基于多机器引擎上下文比对结果的协同翻译系统、基于上下文语义对比的人机协同翻译方法以及实现所述方法的计算机可读存储介质。所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎,所述文档拆分识别引擎至少包含两个输出结果识别分支,所述输出结果识别分支包括第一识别分支和第二识别分支;所述第一识别分支连接至句子上下文抽取引擎,并将所述句子上下文抽取引擎的抽取结果输入至比对翻译引擎;所述第二识别分支连接至段落上下文抽取引擎,并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎;并且,所述比对翻译引擎的输出结果经比对判断组件判断之后,反馈给所述段落上下文抽取引擎;所述比对翻译引擎、所述比对判断组件以及所述人工翻译引擎的输出结果均显示于翻译结果对照界面。本专利技术的技术方案在翻译过程中的多个阶段充分利用上下文概念以及机器翻译引擎的相互对比结果,从而提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性。具体来说,在本专利技术的第一个方面,提供一种基于多机器引擎上下文比对结果的协同翻译系统,所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎;所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档,对其进行文档拆分识别输出,作为本专利技术的关键技术贡献之一,所述文档拆分识别引擎至少包含两个输出结果识别分支,所述输出结果识别分支包括第一识别分支和第二识别分支;所述第一识别分支连接至句子上下文抽取引擎,并将所述句子上下文抽取引擎的抽取结果输入至比对翻译引擎;所述第二识别分支连接至段落上下文抽取引擎,并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎;并且,所述比对翻译引擎的输出结果经比对判断组件判断之后,反馈给所述段落上下文抽取引擎;所述比对翻译引擎、所述比对判断组件以及所述人工翻译引擎的输出结果均显示于翻译结果对照界面。进一步的,作为体现上述关键技术贡献的关键技术手段,所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档,对其进行文档拆分识别输出,具体包括:对待译文档进行段落识别,将其划分为以段落为单位的段落语义单位子集;对于所述段落语义单位子集中的每一个段落,判断其是否满足段落翻译预定条件,如果否,则将该段落通过所述第二识别分支输入至所述段落上下文抽取引擎。与此相对应的,所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档,对其进行文档拆分识别输出,具体包括:对待译文档进行段落识别,将其划分为以段落为单位的段落语义单位子集;对于所述本文档来自技高网
...

【技术保护点】
1.一种基于多机器引擎上下文比对结果的协同翻译系统,所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎;/n所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档,对其进行文档拆分识别输出,/n其特征在于:/n所述文档拆分识别引擎至少包含两个输出结果识别分支,所述输出结果识别分支包括第一识别分支和第二识别分支;/n所述第一识别分支连接至句子上下文抽取引擎,并将所述句子上下文抽取引擎的抽取结果输入至比对翻译引擎;/n所述第二识别分支连接至段落上下文抽取引擎,并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎;/n并且,所述比对翻译引擎的输出结果经比对判断组件判断之后,反馈给所述段落上下文抽取引擎;/n所述比对翻译引擎、所述比对判断组件以及所述人工翻译引擎的输出结果均显示于翻译结果对照界面。/n

【技术特征摘要】
1.一种基于多机器引擎上下文比对结果的协同翻译系统,所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎;
所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档,对其进行文档拆分识别输出,
其特征在于:
所述文档拆分识别引擎至少包含两个输出结果识别分支,所述输出结果识别分支包括第一识别分支和第二识别分支;
所述第一识别分支连接至句子上下文抽取引擎,并将所述句子上下文抽取引擎的抽取结果输入至比对翻译引擎;
所述第二识别分支连接至段落上下文抽取引擎,并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎;
并且,所述比对翻译引擎的输出结果经比对判断组件判断之后,反馈给所述段落上下文抽取引擎;
所述比对翻译引擎、所述比对判断组件以及所述人工翻译引擎的输出结果均显示于翻译结果对照界面。


2.如权利要求1所述的协同翻译系统,其特征在于:所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档,对其进行文档拆分识别输出,具体包括:
对待译文档进行段落识别,将其划分为以段落为单位的段落语义单位子集;对于所述段落语义单位子集中的每一个段落,判断其是否满足段落翻译预定条件,如果否,则将该段落通过所述第二识别分支输入至所述段落上下文抽取引擎。


3.如权利要求2所述的协同翻译系统,其特征在于:所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档,对其进行文档拆分识别输出,具体包括:
对待译文档进行段落识别,将其划分为以段落为单位的段落语义单位子集;对于所述段落语义单位子集中的每一个段落,判断其是否满足段落翻译预定条件,
如果是,则将该段落以句子为单位进行句子识别,得到以句子为单位的句子语义单位子集,并将所述句子语义单位子集中的每一个句子,通过所述第一识别分支输入至所述句子上下文抽取引擎。


4.如权利要求2或3所述的协同翻译系统,其特征在于:所述段落翻译预定条件,具体包括如下条件之一或者其组合:
该段落的文本数量低于第一数量阈值;
至少两个机器翻译引擎对于该段落的翻译结果的相似度大于第二阈值;
至少两个机器翻译引擎的各自翻译结果的评分均大于第三阈值。


5.如权利要求3所述的协同翻译系统,其特征在于:将所述句子语义单位子集中的每一个句子,通过所述第一识别分支输入至所述句子上下文抽取引擎,具体包括:
抽取所述句子语义单位子集中的每一个句子的第一预定数量的上下文句子,将所述每一个句子与...

【专利技术属性】
技术研发人员:夏菲
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1