一种云翻译记忆库快速增量式模糊匹配的方法技术

技术编号：16528926 阅读：91 留言：0更新日期：2017-11-09 20:40

本发明专利技术公开了一种云翻译记忆库快速增量式模糊匹配的方法，面向基于云平台的大规模翻译记忆库快速、准确模糊匹配，采用信息检索技术对大规模翻译记忆库构建索引，采用粗选和精选策略，即首先从索引库中根据输入的待译句子得到匹配的子集，然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出，最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。本发明专利技术一种云翻译记忆库快速增量式模糊匹配的方法，能快速、准确检索大规模翻译记忆库，提高后编辑人员的工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种云翻译记忆库快速增量式模糊匹配的方法
本专利技术属于计算机辅助翻译
，具体涉及一种云翻译记忆库快速增量式模糊匹配的方法。
技术介绍
翻译记忆库是目前计算机辅助翻译系统中不可或缺的部分，以类似数据库的方式对已有平行句对或后编辑完成的平行句对进行存储，存储方式可为数据库或各种类型的文本文件，如TMX，TXT，XLIFF,XML等。在使用翻译记忆库时，一般的工作流程为给定需要翻译的源语言句子S，指定需要查询的翻译记忆库T，以句子为单位，遍历翻译记忆库T中所有的句段。对T中的每一句段X，采用相似度或距离计算算法计算S与X之间的最小距离d，然后由最小距离d计算得到相似度得分或模糊匹配得分(取值为0～100％)，最后取模糊匹配得分最大并且该得分大于或等于设定的模糊匹配阈值的句段的对应翻译为最优输出。若需要输出最佳的前N个结果，则按得分从大到小依次排序，取出前N个句段的翻译为最优翻译假设输出。翻译记忆库的优点是易存储，易操作，但是缺点也显而易见：①互联网技术的发展使得双语平行数据的获取变得相对容易；而且，随着互联网的普及，目前主流的计算机辅助翻译系统已从简单的单机桌面系统发展为基于浏览器的云端系统，译员只需通过浏览器登录云端个人帐户，上传本地记忆库至云端，即可随时随地进行翻译活动，但同时，云翻译使得翻译记忆库的规模迅速增大。而且，基于云端的翻译辅助系统使得译员在线协同作业成为可能，更使得记忆库的规模迅速增加。记忆库规模的增加使得简单的基于句段的遍历方法变得效率低下，无法满足互联网大规模在线翻译的实时性需求。②传统常用的记忆库模糊匹配算法一般是基于编辑距离的相似...
一种云翻译记忆库快速增量式模糊匹配的方法

【技术保护点】
一种云翻译记忆库快速增量式模糊匹配的方法，其特征在于，面向基于云平台的大规模翻译记忆库快速、准确模糊匹配，采用信息检索技术对大规模翻译记忆库构建索引，采用粗选和精选策略，即首先从索引库中根据输入的待译句子得到匹配的子集，然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出，最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。

【技术特征摘要】
1.一种云翻译记忆库快速增量式模糊匹配的方法，其特征在于，面向基于云平台的大规模翻译记忆库快速、准确模糊匹配，采用信息检索技术对大规模翻译记忆库构建索引，采用粗选和精选策略，即首先从索引库中根据输入的待译句子得到匹配的子集，然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出，最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。2.根据权利要求1所述的一种云翻译记忆库快速增量式模糊匹配的方法，其特征在于，具体按照以下步骤实施：步骤1：将基于云的大规模翻译记忆库中源语言句段和目标语言句段分别进行句子级语义向量建模，分别得到源语言的句子语义向量表示模型和目标语言的句子语义向量表示模型；步骤2：将基于云的大规模翻译记忆库中的源语言句段和目标语言句段分别赋予唯一的ID号，并以此ID号为文件名对源语言句段和目标语言句段分别存储，构成源语言句段文件集合和目标语言句段文件集合；同一ID号对应的源语言句段文件和目标语言句段文件为双语平行句对；步骤3：对源语言句段文件和目标语言句段文件，分别采用信息检索技术对其进行索引构建，得到源语言文件索引库和目标语言文件索引库；步骤4：给定待译源语言句段，译员请求云端大规模翻译记忆库翻译，将待译句段送入源语言索引库进行粗选，获取N个最好结果，构成源语言句段子集；步骤5：对粗选后的子集，采用基于句子语义向量相似度和编辑距离线性组合的算法进行精选，输出得分最高的句段所对应的译文；步骤6：译员对输出的译文进行人工后编辑，然后将最终译文和对应的源语言句段返回大规模翻译记忆库，进行增量式更新。3.根据权利要求2所述的一种云翻译记忆库快速增量式模糊匹配的方法，其特征在于，所述步...

【专利技术属性】
技术研发人员：杜金华，毕京存，
申请(专利权)人：西安市邦尼翻译有限公司，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人