一种计算机辅助翻译方法及装置制造方法及图纸

技术编号:25599883 阅读:60 留言:0更新日期:2020-09-11 23:57
本发明专利技术提供一种计算机辅助翻译方法及装置,装置包括接收模块;术语匹配模块,用于根据术语表,匹配待翻译文本中的所有术语;替换模块,用于将术语匹配模块匹配到的每一个术语,替换为特殊标记;译文的原文匹配度计算模块,用于计算术语的每一种译文的原文匹配度;翻译引擎,用于对术语替换后的待翻译文本,使用机器翻译技术将其翻译为目标语种,得到候选译文;译文匹配度计算模块,用于根据候选译文中的术语位置,计算术语每种翻译的译文匹配度;筛选模块、回填模块和输出模块。具有以下优点:本发明专利技术用于计算机辅助翻译系统中的术语匹配,当术语存在一对多翻译时,能够准确解决术语的翻译问题,提升翻译质量。

【技术实现步骤摘要】
一种计算机辅助翻译方法及装置
本专利技术属于翻译
,具体涉及一种计算机辅助翻译方法及装置。
技术介绍
机器翻译是自然语言处理的翻译范围,主要研究如何将一种语言自动翻译为另外一种语言,解决人们之间的语言障碍问题。经过几十年的发展,机器翻译性能逐步提升,翻译效果显著提高。文件翻译是机器翻译的重要应用场景,用于将一种语言的输入文件,自动翻译为另一种语言。然而,现有的文件翻译方法,主要具有以下问题:在翻译过程中,术语是非常重要的资源,在不同领域中,术语会有不同的含义。例如,“AI”可以翻译成人工智能,但是在医疗领域,应该被翻译成“芳香化酶抑制剂”,可见,在不同应用场景下,术语的译文具有很大的差别。现有技术只适用于具有单一翻译的术语。当术语具有多种翻译时,常常无法准确对术语进行翻译,从而造成翻译结果的不准确。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种计算机辅助翻译方法及装置,可有效解决上述问题。本专利技术采用的技术方案如下:本专利技术提供一种计算机辅助翻译方本文档来自技高网...

【技术保护点】
1.一种计算机辅助翻译方法,其特征在于,包括以下步骤:/n步骤1,接收待翻译文本;/n步骤2,根据术语表,匹配待翻译文本中的所有术语,从而在待翻译文本中,定位到每一个术语;/n步骤3,将步骤2定位到的每一个术语,替换为特殊标记;其中,对于同一种术语,替换为相同的特殊标记;对于不同种的术语,替换为不相同的特殊标记;/n步骤4,对于每一种术语,采用以下方法计算术语的每一种译文的原文匹配度:/n步骤4.1,设原文语种的术语为e

【技术特征摘要】
1.一种计算机辅助翻译方法,其特征在于,包括以下步骤:
步骤1,接收待翻译文本;
步骤2,根据术语表,匹配待翻译文本中的所有术语,从而在待翻译文本中,定位到每一个术语;
步骤3,将步骤2定位到的每一个术语,替换为特殊标记;其中,对于同一种术语,替换为相同的特殊标记;对于不同种的术语,替换为不相同的特殊标记;
步骤4,对于每一种术语,采用以下方法计算术语的每一种译文的原文匹配度:
步骤4.1,设原文语种的术语为e0,具有n种目标语种的译文,分别为c1、c2、c3...cn;
步骤4.2,在原文语种的待翻译文本中,取术语e0的上下文信息,假设取术语e0的前面相邻的m个原文语种的词,分别为:e-m,...,e-2,e-1;取术语e0的后面相邻的u个原文语种的词,分别为:e1,e2,...,eu;
将术语e0的上下文信息和术语e0组成原文关键信息e-m,...,e-2,e-1,e0,e1,e2,...,eu;将原文关键信息分别和每一种目标语种的译文组成形成一种原文关键组合信息,然后以原文关键组合信息为查询条件,在搜索引擎中查找原文关键组合信息的出现次数,即:分别查找以下原文关键组合信息的出现次数:



其中:
count(c1)为译文c1对应的原文关键组合信息的出现次数;
count(c2)为译文c2对应的原文关键组合信息的出现次数;
count(c3)为译文c3对应的原文关键组合信息的出现次数;
依此类推
count(cn)为译文cn对应的原文关键组合信息的出现次数;
步骤4.3,对于术语e0的第i种目标语种译文ci,其中,i=1,2,...,n;采用以下公式计算第i种目标语种译文ci的原文匹配度Msrc(ci):



步骤5,步骤3将术语替换为特殊标记后,得到术语替换后的待翻译文本;然后,将术语替换后的待翻译文本输送到翻译引擎,使用机器翻译技术将其翻译为目标语种,得到候选译文;
步骤6,在候选译文中,定位到特殊标记,即定位到术语位置;根据候选译文中的术语位置,计算术语每种翻译的译文匹配度,具体方法为:
步骤6.1,假设术语e0替换为的特殊标记表示为e#0;在候选译文中,取特殊标记e#0的上下文信息,假设取特殊标记e#0的前面相邻的w个目标语种的词,分别为:p-w,...,p-2,p-1;取特殊标记e#0的后面相邻的v个目标语种的词,分别为:p1,p2,...,pv;
将特殊标记e#0的上下文信息组成译文关键信息:p-w,...,p-2,p-1,p1,p2,...,pv;
步骤6.2,术语e0共有n种目标语种的译文,分别为c1、c2、c3...cn;对于任意一种目标语种译文ci,按下面方法计算目标语种译文ci的译文匹配度Mtgt(ci):
1)采用下式计算目标语种译文ci的语言模型得分LM(ci):
LM(ci)=log(pword(p-w,...,p-2,p-1,p1,p2,...,pv))
其中:
采用大量原文语种的文本对语言模型进行训练,得到目标语种的语言模型;然后,计算术语e0在候选译文中的上下文的语言模型得分,即为目标语种译文ci的语言模型得分;
pword(.)是根据目标语种的语言模型得到的表达式;
2)采用下式计算目标语种译文ci的词法得分POS(ci):
POS(ci)=log(ppos(p-w,...,p-2,p-1,p1,p2,...,pv))
其中:
采用大量原文语种的文本对词性序列训练,得到目标语种的词性序列模型;然后,计算术语e0在候选译文中的上下文的词性序列得分,即为目标语种译文ci的词性序列得分;
ppos(.)是根据目标语种的词性序列模型得到的表达式;
3)按照如下公式计算目标语种译文ci的译文匹配度Mtgt(ci):
Mtgt(ci)=β·LM(ci)+(1-β)·POS(ci)
其中:
β是0到1之间的译文匹配度系数;
步骤7,因此,对于术语e0的每种目标语种译文ci,均得到原文匹配度Msrc(ci)和译文匹配度Mtgt(ci);采用下式,计算术语e0的每种目标语种译文ci的最终得分M(ci):
M(ci)=α·Msrc(ci)+(1-α)·Mtgt(ci)
其中:
α是0到1之间的译文最终得分系数;
步骤8,将最终得分最高的目标语种译文表示为cmax;目标语种译文cmax即为术语e0的最终翻译译文;
根据术语e0的特殊标记,在步骤5得到的候选译文中定位到对应的特殊标记;然后,用最终翻译译文cmax替换对应的特殊标记,得到最终的翻译译文;
步骤9,输出最终的翻译译文。

【专利技术属性】
技术研发人员:刘鹏周玉邓彪
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1