当前位置: 首页 > 专利查询>苏州大学专利>正文

一种译文中术语错译的纠正方法、系统及相关装置制造方法及图纸

技术编号:19424907 阅读:27 留言:0更新日期:2018-11-14 10:32
本申请公开了一种译文中术语错译的纠正方法,所述纠正方法获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;将每一个伪翻译文本分别替换第一译文中所述原翻译文本得到N个第二译文,并对第一译文和所有第二译文执行回译操作得到N+1个回译文本;将源文本和所有回译文本进行文本比较确定第一译文的翻译准确程度,并根据翻译准确程度纠正目标术语的原翻译文本。本方法能够在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正。本申请还公开了一种译文中术语错译的纠正系统、一种计算机可读存储介质及一种译文中术语错译的纠正装置,具有以上有益效果。

【技术实现步骤摘要】
一种译文中术语错译的纠正方法、系统及相关装置
本专利技术涉及机器翻译领域,特别涉及一种译文中术语错译的纠正方法、系统、一种计算机可读存储介质及一种译文中术语错译的纠正装置。
技术介绍
机器翻译技术是指使用计算机等计算设备将一种自然语言(即,源语言)的原文翻译为另一种自然语言(即,目标语言)的译文的技术。由于这一翻译过程由机器完成,所以与人工翻译相比,可以在相对短的时间处理大量的翻译工作。但是,当使用机器翻译技术翻译有较多特定领域专业术语的文本时,由于通用机器翻译系统的训练语料中缺乏特定领域术语的翻译或者领域术语的翻译出现次数较少导致翻译概率较低,因此使用通用的机器翻译方法来翻译此类文本经常会出错。针对上述问题,现有技术中术语机器翻译文本纠正的方法为:先将输出的译文中每个单词看作判别的对象,构造词汇特征、句法特征等,选用适当的分类模型如最大熵分类器、随机森林、双向LSTM等,对每个单词打标签,判断单词的正误;若错误则对错译的术语进行纠正。但是这种方法在纠正术语错译的过程依赖于大量领域内资源,在面向领域未知的文本时,稀缺的语言资源将限制该类方法的通用性。因此,如何在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正是本领域技术人员目前需要解决的技术问题。
技术实现思路
本申请的目的是提供一种译文中术语错译的纠正方法、系统、一种计算机可读存储介质及一种译文中术语错译的纠正装置,能够在不依赖大量领域内资源的前提下实现机器翻译中领域术语的错译纠正。为解决上述技术问题,本申请提供一种译文中术语错译的纠正方法,该纠正方法包括:获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。可选的,从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本包括:计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分块,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。可选的,获取第一译文中目标术语的原翻译文本包括:获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本。可选的,将所述源文本和所有所述回译文本进行文本比较确定所述回译文本的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本包括:利用语言模型计算所有所述回译文本的语言模型概率得分,并确定所述语言模型概率得分最大值;将所述回译文本映射为第一特征向量,将所述源文本映射为第二特征向量,并将每个所述回译文本对应的第一特征向量与所述第二特征向量之间的余弦距离设置为所述回译文本与所述源文本之间的语义相似度,确定所述语义相似度最大值;判断所述第一译文对应的回译文本的语言模型概率得分与所述语言模型概率得分最大值的得分的差值是否小于或等于预设值,得到第一判断结果;判断所述第一译文对应的回译文本与所述源文本之间的语义相似度是否为所述语义相似度最大值,得到第二判断结果。判断所述第一判断结果和所述第二判断结果是否均为否;若均为否,则判定所述原翻译文本翻译错误,并纠正所述目标术语的原翻译文本。可选的,纠正所述目标术语的原翻译文本包括:将所述第一译文替换为所述语义相似度最大值对应的第二译文。可选的,纠正所述目标术语的原翻译文本包括:将所有所述回译文本与所述源文本均表示为依存树,计算从每一个所述回译文本对应的依存树转化为源文本对应的依存树的最小编辑代价;选择最小编辑代价最小的回译文本对应的第二译文作为最佳译文;或,选择所述语义相似度与所述最小编辑代价差值最大的回译文本对应的第二译文作为所述最佳译文;将所述第一译文替换为所述最佳译文。本申请还提供了一种译文中术语错译的纠正系统,该系统包括:同义词语获取模块,用于获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;回译模块,用于将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;纠正模块,用于将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。可选的,所述同义词语获取模块包括:原翻译文本确定单元,用于获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本。伪翻译文本确定单元,用于计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分块,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述译文中术语错译的纠正方法执行的步骤。本申请还提供了一种译文中术语错译的纠正装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述译文中术语错译的纠正方法执行的步骤。本专利技术提供了一种译文中术语错译的纠正方法,包括获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。翻译是指将第一种语言的源文本转化为表达相同语义的第二种语言的译文文本,而对第二种语言的译文文本再次执行翻译的逆向操作得到第一种语言的文本称之为回译文本,这个逆向翻译的过程就称之为回译,如果翻译得到的第二种语言的译文文本不存在错译,那么回译文本与源文本将会保持较高的一致性。进一步的,由于在某一种语言中一个词语在另一种语言中会有多个语义不同的候选翻译,而仅对候选翻译直接进行回译无法确定候选翻译的准确程度(因为即使是错误的候选翻译进行回译也可能得到正确的源文本中的原词语),因此可以将候选翻译放在有上下文的完整的句子中进行回译得到回译文本,将回译文本与源文本进行比对能够评价译文文本中某个词的翻译准确度,进而选择一个翻译准确度最高的回译文本对应的候选翻译作为正确的翻译。基于此,本专利技术将术语错译的识别过程转化为回译文本与源文本之间的比较问题,通过比对查找与目标术语对应的伪翻译文本进行文本的替换得到N个第二译文,将第一译文和第二译文进行回译得到多个回译文本,将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。本方案能够在不依赖大量领域内资源的前提本文档来自技高网...

【技术保护点】
1.一种译文中术语错译的纠正方法,其特征在于,包括:获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。

【技术特征摘要】
1.一种译文中术语错译的纠正方法,其特征在于,包括:获取第一译文中目标术语的原翻译文本,并从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本;其中,所述第一译文由源文本翻译得到;将每一个所述伪翻译文本分别替换所述第一译文中所述原翻译文本得到N个第二译文,并对所述第一译文和所有所述第二译文执行回译操作得到N+1个回译文本;将所述源文本和所有所述回译文本进行文本比较确定所述第一译文的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本。2.根据权利要求1所述纠正方法,其特征在于,从训练集中获取与所述目标术语对应的候选翻译,将所有所述候选翻译设置为伪翻译文本包括:计算所述目标术语的哈希值,并将从所述训练集构建的短语表进行哈希分块,查找与所述目标术语对应的所述候选翻译,将所有所述候选翻译设置为所述伪翻译文本。3.根据权利要求1所述纠正方法,其特征在于,获取第一译文中目标术语的原翻译文本包括:获取所述第一译文的词对齐信息,根据所述词对齐信息确定所述目标术语所在的所述原翻译文本。4.根据权利要求1所述纠正方法,其特征在于,将所述源文本和所有所述回译文本进行文本比较确定所述回译文本的翻译准确程度,并根据所述翻译准确程度纠正所述目标术语的原翻译文本包括:利用语言模型计算所有所述回译文本的语言模型概率得分,并确定所述语言模型概率得分最大值;将所述回译文本映射为第一特征向量,将所述源文本映射为第二特征向量,并将每个所述回译文本对应的第一特征向量与所述第二特征向量之间的余弦距离设置为所述回译文本与所述源文本之间的语义相似度,确定所述语义相似度最大值;判断所述第一译文对应的回译文本的语言模型概率得分与所述语言模型概率得分最大值的得分的差值是否小于或等于预设值,得到第一判断结果;判断所述第一译文对应的回译文本与所述源文本之间的语义相似度是否为所述语义相似度最大值,得到第二判断结果;判断所述第一判断结果和所述第二判断结果是否均为否;若均为否,则判定所述原翻译文本翻译错误,并纠正所述目标术语的原翻译文本。...

【专利技术属性】
技术研发人员:洪宇刘梦眙姚建民
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1