一种待译文件处理系统及使用这种系统的文件处理方法技术方案

技术编号:2838482 阅读:191 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种待译文件处理系统及使用这种系统的文件处理方法。本发明专利技术提供一种待译文件处理系统,包括信息接收模块、分析转换模块、文档分节模块、短句/术语重复状况统计模块、翻译模块、双语对照语料数据库和结果输出模块。本发明专利技术还提供一种使用上述待译文件处理系统进行文件处理的方法。本发明专利技术提供的文件处理系统可用于待译文件的预处理,尤其适用于批量待译文件的预处理。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
随着国际化程度的不断深入,国际间交流越来越频繁。其中大量的不同语种的文件需要翻译。但是现有的翻译公司普遍存在大量重复性劳动,每个翻译员都是单独作业,翻译经验需要在长期的实践工作中个人积累,历史语料不能得到最大程度的利用,浪费了公司大量的人力成本,极大的浪费了人力资源和社会资源。尤其是在同时存在大量文件需要翻译的时候,如果分别发送给不同的译员进行翻译,则很容易出现对同样的内容和术语的重复查询和翻译,造成了重复性劳动,并且也存在数据的重复传输,大大浪费了人力资源和社会资源。同时,由于不同的译员之间认识的差别,常常出现对同一个句子或术语的不同的翻译结果,容易造成误解。
技术实现思路
为了有效解决现在的翻译公司存在的上述问题,为翻译公司节省成本,本专利技术提供一种待译文件处理系统。本专利技术的技术方案如下本专利技术提供一种待译文件处理系统,由信息接收模块、分析转换模块、文档分节模块、短句/术语重复状况统计模块、翻译模块、双语对照语料数据库和结果输出模块组成。信息接收模块可接收外部传输来的待译文档和承译人员ID;分析转换模块将信息接收模块接收到的外部传输来的待译文档转换为纯文本文档;文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句;短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计;双语对照语料数据库中收录有双语对照语料;翻译模块将所述纯文本文档原文文字中的短句在双语对照语料数据库中进行比对,筛选匹配的译文;结果输出模块将翻译模块筛选到的每个译文与对应的原文组成双语关联文档,并将其另外合并成完整的原文译文双语关联文档后,分别输出分节的双语关联列表和完整的原文译文双语关联文档以及承译人员ID。所述的信息接收模块接收的外部传输来的待译文档可以是通过网络传输来的word文档、RTF文档,pdf文档、Excel文档或ppt文档。所述的文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句,具体是指文档分节模块对分析转换模块转换的纯文本文档中记载的原文文字按既定的断句规则进行分节,例如,既定的断句规则可选为以句号或硬回车为分界点进行分节。双语对照语料数据库中收录有大量双语对照语料具体是指,在双语对照语料数据库中收录有大量原文与译文双语对应的短句及术语,其中的原文与译文双语对应的短句及术语带有最后一次使用时间、是否校正过、短句/术语、行业和专业领域的标记。翻译模块将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对,筛选匹配的译文是指,翻译模块事先设定一个原文与译文匹配的阈值,将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对时,如果原文与译文匹配率高于这个阈值的译文只有一个,则选择这个译文,如果原文与译文匹配率高于这个阈值的译文有多个,根据所带的最后一次使用时间、是否校正过、短句/术语、行业和专业领域标记,按既定的规则排序,如果原文与译文匹配率高于这个阈值的译文不存在,则不选择。作为优化,所述待译文件处理系统还包括一个存储结果输出模块输出的,经过人工校正确认的分节的双语关联列表和与承译人员ID的原文译文对照语料数据库。本专利技术还提供一种使用上述待译文件处理系统进行处理的方法,步骤如下(1)信息接收模块接收外部传输来的待译文档与承译人员ID;(2)分析转换模块对信息接收模块接收到的外部传输来的待译文档转换为纯文本文档;(3)文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句;(4)短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计,输出不同相似值的短句/术语在文档中的条数重复比重、字数重复比重和文档间重复比重;(5)翻译模块将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对,筛选匹配的译文;(6)结果输出模块将翻译模块筛选到的译文与对应的原文组成双语关联文档,并将其另外合并成完整的原文译文双语关联文档后,分别输出分节的双语关联列表、完整的原文译文双语关联文档和承译人员ID。作为优化,结果输出模块输出的分节的双语关联列表经过人工校正确认后,还可以与承译人员ID一起储存到原文译文对照语料数据库。本专利技术所实现的技术效果如下本专利技术提供的文件处理系统可用于待译文件的预处理,尤其适用于批量待译文件的预处理。分析转换模块对信息接收模块接收到的外部传输来的待译文档的格式进行分析,并将其转换为纯文本文档。文档的格式统一,有利于对不同格式的文件中的待译信息进行统计分析。文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句,有利于筛选重复短句。短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计,一个短句在双语对照语料数据库中只比对一次,可以避免重复出现的短句的重复传输和比对,而且有助于对译员的工作量进行系统的估量。双语对照语料数据库中收录大量的历史双语对照语料,大大提高了翻译效率,降低了翻译成本,并避免了不同译员对同一短句和术语翻译出不同译文现象的出现,以避免误解的发生。翻译模块将所述纯文本文档原文文字中的短句在双语对照语料数据库中进行比对,筛选匹配的译文。这个步骤实现的部分自动翻译,降低了译员的工作量,降低了翻译成本。结果输出模块输出的分节的双语关联列表,可用于译员间的双语语料共享,避免了重复翻译,提高了翻译效率。附图说明附图1自动翻译系统结构示意图;附图2自动翻译系统工作流程图;附图3信息接收模块接收外部传输来的待译文档;附图4信息接收模块接收到的外部传输来的待译文档被分析转换模块转换后的纯文本文档;附图5文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句;附图6短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计结果。具体实施例方式本实施例提供一种待译文件处理系统,如图1所示,由信息接收模块、分析转换模块、文档分节模块、短句/术语重复状况统计模块、翻译模块、双语对照语料数据库和结果输出模块组成。信息接收模块可接收外部传输来的待译文档和承译人员ID;分析转换模块对信息接收模块接收到的外部传输来的待译文档的格式进行分析,并将其转换为纯文本文档;文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句;短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计;双语对照语料数据库中收录有双语对照语料;翻译模块将所述纯文本文档原文文字中的短句在双语对照语料数据库中进行比对,筛选匹配的译文;结果输出模块将翻译模块筛选到的每个译文与对应的原文组成双语关联文档,并将其另外合并成完整的原文译文双语关联文档后,分别输出分节的双语关联列表和完整的原文译文双语关联文档以及承译人员ID。所述的信息接收模块接收的外部传输来的原文文档可以是通过网络传输来的word文档、RTF文档,pdf文档或Excel、ppt文档。所述的文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句,具体是指文档分节模块对分析转换模块转换的纯文本文档中记载的原文文字按既定的短句规则进行分节,例如,既定的规则可选为以句号或硬回本文档来自技高网...

【技术保护点】
一种待译文件处理系统,包括信息接收模块、分析转换模块、文档分节模块、短句/术语重复状况统计模块、翻译模块、双语对照语料数据库和结果输出模块,所述信息接收模块接收外部传输来的待译文档;所述分析转换模块将信息接收模块接收到的外部传输来的待译文档转换为纯文本文档;所述文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字分节成短句;所述短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计;所述双语对照语料数据库中收录有双语对照语料;所述翻译模块将所述纯文本文档原文文字中的短句在双语对照语料数据库中进行比对,筛选匹配的译文;所述结果输出模块将翻译模块筛选到的每个译文与对应的原文组成双语关联文档,并将其另外合并成完整的原文译文双语关联文档后,分别输出分节的双语关联列表和完整的原文译文双语关联文档。

【技术特征摘要】

【专利技术属性】
技术研发人员:何战涛
申请(专利权)人:传神联合北京信息技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1