一种云翻译记忆库快速增量式模糊匹配的方法技术

技术编号:16528926 阅读:91 留言:0更新日期:2017-11-09 20:40
本发明专利技术公开了一种云翻译记忆库快速增量式模糊匹配的方法,面向基于云平台的大规模翻译记忆库快速、准确模糊匹配,采用信息检索技术对大规模翻译记忆库构建索引,采用粗选和精选策略,即首先从索引库中根据输入的待译句子得到匹配的子集,然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出,最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。本发明专利技术一种云翻译记忆库快速增量式模糊匹配的方法,能快速、准确检索大规模翻译记忆库,提高后编辑人员的工作效率。

【技术实现步骤摘要】
一种云翻译记忆库快速增量式模糊匹配的方法
本专利技术属于计算机辅助翻译
,具体涉及一种云翻译记忆库快速增量式模糊匹配的方法。
技术介绍
翻译记忆库是目前计算机辅助翻译系统中不可或缺的部分,以类似数据库的方式对已有平行句对或后编辑完成的平行句对进行存储,存储方式可为数据库或各种类型的文本文件,如TMX,TXT,XLIFF,XML等。在使用翻译记忆库时,一般的工作流程为给定需要翻译的源语言句子S,指定需要查询的翻译记忆库T,以句子为单位,遍历翻译记忆库T中所有的句段。对T中的每一句段X,采用相似度或距离计算算法计算S与X之间的最小距离d,然后由最小距离d计算得到相似度得分或模糊匹配得分(取值为0~100%),最后取模糊匹配得分最大并且该得分大于或等于设定的模糊匹配阈值的句段的对应翻译为最优输出。若需要输出最佳的前N个结果,则按得分从大到小依次排序,取出前N个句段的翻译为最优翻译假设输出。翻译记忆库的优点是易存储,易操作,但是缺点也显而易见:①互联网技术的发展使得双语平行数据的获取变得相对容易;而且,随着互联网的普及,目前主流的计算机辅助翻译系统已从简单的单机桌面系统发展为基于浏览器的云端系统,译员只需通过浏览器登录云端个人帐户,上传本地记忆库至云端,即可随时随地进行翻译活动,但同时,云翻译使得翻译记忆库的规模迅速增大。而且,基于云端的翻译辅助系统使得译员在线协同作业成为可能,更使得记忆库的规模迅速增加。记忆库规模的增加使得简单的基于句段的遍历方法变得效率低下,无法满足互联网大规模在线翻译的实时性需求。②传统常用的记忆库模糊匹配算法一般是基于编辑距离的相似度计算算法,本质上是基于词形而非语义理解的计算方法。基于词形的计算方法会因为词形的微小变化而导致词无法匹配,使得句子级的相似度得分降低,例如英文中的动词“go”、“goes”在基于编辑距离的模糊匹配算法中被视为不同的词,从而产生“替换”操作的代价。而从语义的角度讲,它们是在不同的主语代词结构下的相同语义表达。又如语义匹配表示的一个简单例子:句子“北京是中国的首都”和“华盛顿是美国的首都”,这两个句子在形式上因为“北京-华盛顿”、“中国-美国”的不同,而导致基于编辑距离的模糊匹配得分只有60%,而如果模糊匹配阈值设定大于60%时,则导致两句无法匹配上。而在语义表达上,“北京-华盛顿”、“中国-美国”在语义空间是一致的,都表示国家的首都,具有相同的语义信息,因此,在语义上是相匹配的。而对于两者的英文翻译分别为“BeijingisthecapitalofChina”和“WashingtonisthecapitalofUS”,可以看到,译员只需简单修改“Beijing->Washington”和“China->US”就可以快速完成翻译,而无需构思英文句子结构,重写英文句子,从而大大提高工作效率。因此,译员对于此类翻译的后编辑操作的代价要远远小于重写的代价。又如“中国的首都是北京”与“北京是中国的首都”就语义表达而言,是同样的意思,可是基于编辑距离的模糊匹配方法无法将该句选出,而采用基于语义的模糊匹配,则可以将“中国的首都是北京”对应的英文翻译输出,译员可以直接使用该英文翻译而无需修改。因此,传统的记忆库模糊匹配算法使得记忆库的使用效率较低,大量语义表达相似而表象不同的句子无法匹配输出,使得译员的翻译或后编辑效率大大降低。因此,面向基于云端的大规模海量记忆库的高效准确使用,设计和开发具有语义信息检索装置的云翻译记忆库快速增量式模糊匹配系统,不仅能够促进计算机辅助翻译在互联网+时代下的普及应用,提高译员的工作效率,而且能够进一步增强人们对机器翻译的信心,这对于该学科乃至该行业的进步起着关键性的作用。
技术实现思路
本专利技术的目的是提供一种云翻译记忆库快速增量式模糊匹配的方法,解决了现有技术中存在的译员的翻译或后编辑效率低的问题。本专利技术所采用的技术方案是,一种云翻译记忆库快速增量式模糊匹配的方法,面向基于云平台的大规模翻译记忆库快速、准确模糊匹配,采用信息检索技术对大规模翻译记忆库构建索引,采用粗选和精选策略,即首先从索引库中根据输入的待译句子得到匹配的子集,然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出,最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。本专利技术的特点还在于:具体按照以下步骤实施:步骤1:将基于云的大规模翻译记忆库中源语言句段和目标语言句段分别进行句子级语义向量建模,分别得到源语言的句子语义向量表示模型和目标语言的句子语义向量表示模型;步骤2:将基于云的大规模翻译记忆库中的源语言句段和目标语言句段分别赋予唯一的ID号,并以此ID号为文件名对源语言句段和目标语言句段分别存储,构成源语言句段文件集合和目标语言句段文件集合;同一ID号对应的源语言句段文件和目标语言句段文件为双语平行句对;步骤3:对源语言句段文件和目标语言句段文件,分别采用信息检索技术对其进行索引构建,得到源语言文件索引库和目标语言文件索引库;步骤4:给定待译源语言句段,译员请求云端大规模翻译记忆库翻译,将待译句段送入源语言索引库进行粗选,获取N个最好结果,构成源语言句段子集;步骤5:对粗选后的子集,采用基于句子语义向量相似度和编辑距离线性组合的算法进行精选,输出得分最高的句段所对应的译文;步骤6:译员对输出的译文进行人工后编辑,然后将最终译文和对应的源语言句段返回大规模翻译记忆库,进行增量式更新。步骤1中大规模翻译记忆库是指双语平行数据规模在100万句对以上的翻译记忆库。步骤1中源语言句段和目标语言句段分别采用基于神经网络的方法进行句子级语义向量建模。步骤5中精选的计算公式如下:score=α*similarity(X,Y)+(1-α)*(1-levenshtein(x,y))其中,x表示源语言输入句子,y表示翻译记忆库中的任意源语言句段,皆以文本形式存储;X表示句子x的连续向量空间表示形式,Y表示句段y的连续向量空间表示形式,皆以固定维度的数值向量形式存储;score表示输入句子x与翻译记忆库中的任意源语言句段y匹配所得模糊匹配得分,similarity(X,Y)表示待译句子x与翻译记忆库中的任意句段y之间的连续向量语义相似度,levenshtein(x,y)为基于编辑距离的模糊匹配计算方法,(1-levenshtein(x,y))表示基于编辑距离的待译句段x与翻译记忆库中的任意句段y之间的相似度,α为平衡因子;similarity为基于余弦的句子语义向量相似度计算方法,如下公式所示:其中,A为输入的待译句段的语义向量,B为翻译记忆库中的某一句段的语义向量,similarity表示A和B的语义相似度,n表示向量维数。本专利技术的有益效果是:本专利技术一种云翻译记忆库快速增量式模糊匹配的方法,使得基于互联网的大规模在线翻译记忆库的查询匹配可以快速准确实时完成,并且能够根据语义信息充分利用翻译记忆库,有效提高了译员使用大规模翻译记忆库的工作效率。本专利技术将信息检索技术和基于连续向量空间的句子向量语义匹配方法进行有机结合从而使翻译记忆库的模糊匹配具有一定的智能性,并进行了实验测试。测试结果表明相比于传统的大规模翻译记忆库的基于编辑距离的模糊匹本文档来自技高网
...
一种云翻译记忆库快速增量式模糊匹配的方法

【技术保护点】
一种云翻译记忆库快速增量式模糊匹配的方法,其特征在于,面向基于云平台的大规模翻译记忆库快速、准确模糊匹配,采用信息检索技术对大规模翻译记忆库构建索引,采用粗选和精选策略,即首先从索引库中根据输入的待译句子得到匹配的子集,然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出,最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。

【技术特征摘要】
1.一种云翻译记忆库快速增量式模糊匹配的方法,其特征在于,面向基于云平台的大规模翻译记忆库快速、准确模糊匹配,采用信息检索技术对大规模翻译记忆库构建索引,采用粗选和精选策略,即首先从索引库中根据输入的待译句子得到匹配的子集,然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出,最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。2.根据权利要求1所述的一种云翻译记忆库快速增量式模糊匹配的方法,其特征在于,具体按照以下步骤实施:步骤1:将基于云的大规模翻译记忆库中源语言句段和目标语言句段分别进行句子级语义向量建模,分别得到源语言的句子语义向量表示模型和目标语言的句子语义向量表示模型;步骤2:将基于云的大规模翻译记忆库中的源语言句段和目标语言句段分别赋予唯一的ID号,并以此ID号为文件名对源语言句段和目标语言句段分别存储,构成源语言句段文件集合和目标语言句段文件集合;同一ID号对应的源语言句段文件和目标语言句段文件为双语平行句对;步骤3:对源语言句段文件和目标语言句段文件,分别采用信息检索技术对其进行索引构建,得到源语言文件索引库和目标语言文件索引库;步骤4:给定待译源语言句段,译员请求云端大规模翻译记忆库翻译,将待译句段送入源语言索引库进行粗选,获取N个最好结果,构成源语言句段子集;步骤5:对粗选后的子集,采用基于句子语义向量相似度和编辑距离线性组合的算法进行精选,输出得分最高的句段所对应的译文;步骤6:译员对输出的译文进行人工后编辑,然后将最终译文和对应的源语言句段返回大规模翻译记忆库,进行增量式更新。3.根据权利要求2所述的一种云翻译记忆库快速增量式模糊匹配的方法,其特征在于,所述步...

【专利技术属性】
技术研发人员:杜金华毕京存
申请(专利权)人:西安市邦尼翻译有限公司
类型:发明
国别省市:陕西,61

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1