一种机器辅助网页翻译方法及其系统技术方案

技术编号:8532875 阅读:150 留言:0更新日期:2013-04-04 15:54
本发明专利技术公开了一种机器辅助网页翻译系统,包括接收网页模块、读取网页模块以及翻译网页模块,所述接收网页模块通过解析器对网页进行解析获得文件对象模型,所述读取网页模块读取所述文件对象模型,所述翻译网页模块对网页进行翻译、建库、术语管理以及双向互译和排版。该系统可以有效消除译者的重复劳动,从而提高工作效率。

【技术实现步骤摘要】

本专利技术涉及一种机器辅助网页翻译方法及其系统
技术介绍
网页翻译系统的译准率长期徘徊在70%左右,译文的可读性、系统对语言现象的覆盖面、系统的鲁棒性尤其是开放性都不尽人意。社会迫切需要对真实文本(尤其是网上海量文本)进行大规模的处理,而网页翻译系统同当今社会对大规模真实文本处理的期望相差甚远。机器辅助翻译(Computer Aided Translation,简称CAT)的思想就是在这样的背景下产生的。与全自动机器翻译系统相比较,机器辅助翻译系统是一种人机交互式系统。在这种翻译模式中,计算机负责辅助翻译人员的任务,不仅给翻译人员提供一些词汇、术语、短语翻译的知识,而且从已翻译过文本中查找相同或相似语句的译文,使翻译人员避免不必要的重复劳动,进行高效率的翻译工作。计算机辅助翻译的重要思想(包括基于翻译记忆技术和基于实例模式的翻译技术)是在翻译记忆库(双语对齐库)和实例模式库中 搜索相同或相似的句子或短语,给出参考译文。翻译人员充分利用已有的翻译资源,尽量避免重复劳动。这种辅助翻译机制特别适合于科技专著、科技文献、产品说明书、使用手册、联合国文件等这种篇幅长、重复语言现象较多的文本类型的翻译,能帮助翻译人员消除重复的翻译劳动,只需专注于新内容的翻译。机器翻译记忆库技术的机器辅助翻译软件基于这样一个简单的事实由于专业翻译领域所涉及的翻译资料数量巨大,而范围相对狭窄,集中于某个或某几个专业,如政治、经济、军事、航天、计算机、通讯等专业都有自己的专业翻译公司或部门。这就必然带来翻译资料的不同程度的重复。据统计,在不同行业和部门,这种资料的重复率达到209Γ70%不等。这就意味着译者至少有20%以上的工作是无谓的重复劳动。翻译记忆技术就是从这里着手,首先致力于消除译者的重复劳动,从而提高工作效率。网页翻译功能是指在不改变网页格式的前提下,将浏览器显示的网页上的语言文字翻译成使用者所需要的语言文字。目前常见的网页翻译技术多是针对以超文字标记语言(Hyper Text Markup Language, HTML)所写成的网页进行翻译,其原理系先取得网页之源文件(也就是HTML档)的内容,之后寻找网页中需要翻译的文字(即HTML卷标之间的文字)进行翻译,然后将翻译的结果替代原文,并生成新的网页,再指示浏览器显示新生成的网页。
技术实现思路
为了克服上述
技术介绍
中的不足之处,本专利技术提供一种机器辅助网页翻译系统,包括接收网页模块、读取网页模块以及翻译网页模块,所述的翻译网页模块通过以下几个步骤实现第一步,翻译过程,在翻译新句子的时候,搜索翻译记忆库,对该句和记忆库中翻译单元进行对比和匹配,挑出原文最接近的翻译单元,给出参考译文;第二步,自动建库,自动分析和匹配原文和译文,以句子为单位将原文和译文一一对应然后自动生成一个标准的翻译记忆库文件,用户所有的资料都可以通过该工具得到回收;第三步,术语管理。对所有的术语进行规范,一次性建立一个或多个标准术语列表,在使用翻译记忆系统翻译时,打开术语管理工具中相应的术语列表,会自动识别出当前句子中有哪些词是已定义的术语,并给出标准的术语译文; 第四步,多语种之间进行双向互译; 第五步,自动排版,译文自动套用原文的格式,进行自动排版。根据一种采用上述方法的机器辅助网页翻译系统,其包括接收网页模块、读取网页模块以及翻译网页模块,所述接收网页模块通过解析器对网页进行解析获得文件对象模型,所述读取网页模块读取所述文件对象模型,所述翻译网页模块对网页进行翻译、建库、术语管理以及双向互译和排版。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见,下面描述中的附图仅仅是本专利技术的部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1示出了根据本专利技术的网页翻译流程。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。根据本专利技术的一个实施例,如图1所示,一个机器辅助网页翻译系统包括接收网页模块、读取网页模块以及翻译网页模块,所述接收网页模块通过解析器对网页进行解析获得文件对象模型,所述读取网页模块读取所述文件对象模型,所述翻译网页模块对网页进行翻译、建库、术语管理以及双向互译和排版。在接收到网页后,会由解析器对此网页进行解析而取得文件对象模型,此文件对象模型即储存在接收模块中。在本实施例中,解析器是与一般浏览器内建的解析器(如微软的MSXML)相似。读取模块是用以读取文件对象模型的文字节点中的第一语言文字,并将其输出至翻译模块。其中,读取模块是以指令码(script)或程序来读取文件对象模型中的信息,如Java script、VB script或是PHP等程序语言。其中的翻译网页通过以下几个步骤实现翻译过程、自动建库、术语管理、多语种间双向互译以及自动排版 第一步,翻译过程,在翻译新句子的时候,搜索翻译记忆库,对该句和记忆库中翻译单元进行对比和匹配,挑出原文最接近的翻译单元,给出参考译文; 第二步,自动建库,自动分析和匹配原文和译文,以句子为单位将原文和译文一一对应然后自动生成一个标准的翻译记忆库文件,用户所有的资料都可以通过该工具得到回收; 第三步,术语管理。对所有的术语进行规范,一次性建立一个或多个标准术语列表,在使用翻译记忆系统翻译时,打开术语管理工具中相应的术语列表,会自动识别出当前句子中有哪些词是已定义的术语,并给出标准的术语译文; 第四步,多语种之间进行双向互译; 第五步,自动排版,译文自动套用原文的格式,进行自动排版。具体描述为 翻译记忆产品会自动记忆住用户翻译的每一句翻译,在翻译新句子的时候,搜索翻译记忆库,对该句和记忆库中翻译单元进行对比和匹配,挑出原文最接近的翻译单元,给出参考译文。用户可以接受该译文,也可以做一些修改,修改后的新译文会自动存入记忆库,供以后使用。由于专业领域词汇和句式相对固定,当用户积累了多个有一定规模的记忆库后,遇到的重复句子会越来越多,翻译工作也变得越来越轻松。一般的翻译记忆产品还都支持网络共享记忆库功能。也就是说,当多人同时进行翻译时,可以通过局域网共享一个翻译记忆库,每个在线的翻译人员都可以实时地调用他人的工作成果。对于在使用翻译记忆产品前,已经积累了大量翻译资料的用户,翻译记忆产品会提供一个自动建库工具。该工具能自动分析和匹配原文和译文,以句子为单位将原文和译文一一对应。用户做完一些调整和校对之后,该工具会自动生成一个标准的翻译记忆库文件。用户所有的资料都可以通过该工具得到回收,从而高效、快捷地建立起翻译记忆库。这些库在不断的使用过程中,又会得到进一步补充和完善。翻译记忆产品一般还提供一个非常重要的功能是术语管理。对于专业
来说,几乎每篇文档都带有大量的专业术语,术语译文的前后一致,始终是校对的重要内容之一。这项工作费时费力,还难保会有疏漏。翻译记忆产品通过一个术语管理工具(一般是电子辞典),来规范所有本文档来自技高网
...

【技术保护点】
一种机器辅助网页翻译方法,其特征在于包括以下几个步骤:第一步,翻译过程,在翻译新句子的时候,搜索翻译记忆库,对该句和记忆库中翻译单元进行对比和匹配,挑出原文最接近的翻译单元,给出参考译文;第二步,自动建库,自动分析和匹配原文和译文,以句子为单位将原文和译文一一对应然后自动生成一个标准的翻译记忆库文件,用户所有的资料都可以通过该工具得到回收;第三步,术语管理,对所有的术语进行规范,一次性建立一个或多个标准术语列表,在使用翻译记忆系统翻译时,打开术语管理工具中相应的术语列表,会自动识别出当前句子中有哪些词是已定义的术语,并给出标准的术语译文;第四步,多语种之间进行双向互译;第五步,自动排版,译文自动套用原文的格式,进行自动排版。

【技术特征摘要】
1.一种机器辅助网页翻译方法,其特征在于包括以下几个步骤 第一步,翻译过程,在翻译新句子的时候,搜索翻译记忆库,对该句和记忆库中翻译单元进行对比和匹配,挑出原文最接近的翻译单元,给出参考译文;第二步,自动建库,自动分析和匹配原文和译文,以句子为单位将原文和译文一一对应然后自动生成一个标准的翻译记忆库文件,用户所有的资料都可以通过该工具得到回收;第三步,术语管理,对所有的术语进行规范,一次性建立一个或多个标准术语列表,在使用翻译记忆系统翻译时,打开术语管理...

【专利技术属性】
技术研发人员:宗竞
申请(专利权)人:江苏乐买到网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1