基于上下文语义比对的人机协同翻译系统与方法技术方案

技术编号：25690923 阅读：35 留言：0更新日期：2020-09-18 21:02

本发明专利技术提出基于上下文语义比对的人机协同翻译系统与方法。所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎，所述文档拆分识别引擎至少包含两个输出结果识别分支，所述输出结果识别分支包括第一识别分支和第二识别分支；所述第一识别分支连接至句子上下文抽取引擎；所述第二识别分支连接至段落上下文抽取引擎，并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎；本发明专利技术的技术方案在翻译过程中的多个阶段充分利用上下文概念以及机器翻译引擎的相互对比结果，从而提供人工翻译介入的准确时机，使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率，同时确保翻译的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于上下文语义比对的人机协同翻译系统与方法
本专利技术属于人机协同
，尤其涉及一种基于多机器引擎上下文比对结果的协同翻译系统、基于上下文语义对比的人机协同翻译方法以及实现所述方法的计算机可读存储介质。
技术介绍
机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。机译系统可划分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者由词典和规则库构成知识源；后者由经过划分并具有标注的语料库构成知识源，既不需要词典也不需要规则，以统计规律为主。机译系统是随着语料库语言学的兴起而发展起来的，世界上绝大多数机译系统都采用以规则为基础的策略，一般分为语法型、语义型、知识型和智能型。不同类型的机译系统由不同的成分构成。抽象地说，所有机译系统的处理过程都包括以下步骤：对源语言的分析或理解，在语言的某一平面进行转换，按目标语言结构规则生成目标语言。随着全球化和信息化的不断推进，海量的翻译需求给语言服务行业带来了前所未有的机遇和挑战。将计算机辅助翻译、机器翻译集成为译员打造新的翻译工作环境已经是目前主流发展趋势。计算机辅助翻译(Computeraidedtranslation，CAT)类似于CAD(计算机辅助设计)，能够帮助翻译者优质、高效、轻松地完成翻译工作。它不同于以往的机器翻译软件，不依赖于计算机的自动翻译，而是在人的参与下完成整个翻译过程。与人工翻译...

【技术保护点】
1.一种基于多机器引擎上下文比对结果的协同翻译系统，所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎；/n所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对其进行文档拆分识别输出，/n其特征在于：/n所述文档拆分识别引擎至少包含两个输出结果识别分支，所述输出结果识别分支包括第一识别分支和第二识别分支；/n所述第一识别分支连接至句子上下文抽取引擎，并将所述句子上下文抽取引擎的抽取结果输入至比对翻译引擎；/n所述第二识别分支连接至段落上下文抽取引擎，并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎；/n并且，所述比对翻译引擎的输出结果经比对判断组件判断之后，反馈给所述段落上下文抽取引擎；/n所述比对翻译引擎、所述比对判断组件以及所述人工翻译引擎的输出结果均显示于翻译结果对照界面。/n

【技术特征摘要】
1.一种基于多机器引擎上下文比对结果的协同翻译系统，所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎；
所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对其进行文档拆分识别输出，
其特征在于：
所述文档拆分识别引擎至少包含两个输出结果识别分支，所述输出结果识别分支包括第一识别分支和第二识别分支；
所述第一识别分支连接至句子上下文抽取引擎，并将所述句子上下文抽取引擎的抽取结果输入至比对翻译引擎；
所述第二识别分支连接至段落上下文抽取引擎，并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎；
并且，所述比对翻译引擎的输出结果经比对判断组件判断之后，反馈给所述段落上下文抽取引擎；
所述比对翻译引擎、所述比对判断组件以及所述人工翻译引擎的输出结果均显示于翻译结果对照界面。

2.如权利要求1所述的协同翻译系统，其特征在于：所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对其进行文档拆分识别输出,具体包括：
对待译文档进行段落识别，将其划分为以段落为单位的段落语义单位子集；对于所述段落语义单位子集中的每一个段落，判断其是否满足段落翻译预定条件，如果否，则将该段落通过所述第二识别分支输入至所述段落上下文抽取引擎。

3.如权利要求2所述的协同翻译系统，其特征在于：所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对其进行文档拆分识别输出,具体包括：
对待译文档进行段落识别，将其划分为以段落为单位的段落语义单位子集；对于所述段落语义单位子集中的每一个段落，判断其是否满足段落翻译预定条件，
如果是，则将该段落以句子为单位进行句子识别，得到以句子为单位的句子语义单位子集，并将所述句子语义单位子集中的每一个句子，通过所述第一识别分支输入至所述句子上下文抽取引擎。

4.如权利要求2或3所述的协同翻译系统，其特征在于：所述段落翻译预定条件，具体包括如下条件之一或者其组合：
该段落的文本数量低于第一数量阈值；
至少两个机器翻译引擎对于该段落的翻译结果的相似度大于第二阈值；
至少两个机器翻译引擎的各自翻译结果的评分均大于第三阈值。

5.如权利要求3所述的协同翻译系统，其特征在于：将所述句子语义单位子集中的每一个句子，通过所述第一识别分支输入至所述句子上下文抽取引擎，具体包括：
抽取所述句子语义单位子集中的每一个句子的第一预定数量的上下文句子，将所述每一个句子与...

【专利技术属性】
技术研发人员：夏菲，
申请(专利权)人：语联网武汉信息技术有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人