一种利于翻译工作的文件抽取和还原方法技术

技术编号:12126544 阅读:71 留言:0更新日期:2015-09-25 15:03
本发明专利技术涉及利于翻译工作的人工智能、文档处理的方法,利用Aspose组件对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;建立一个标准的译员处理文档,将的待翻译数据集合中的每一个句子逐一复制到译员处理文档;译员在译员处理文档中逐个填写到译文;遍历所述待翻译数据集合和译员处理文档,写到待翻译数据集合中;将待翻译数据集合还原生成原稿格式文档。本发明专利技术能将多种不同格式的文稿转换成为标准的译员处理文档。重复出现多次的句子无需多次重复翻译,简化译员的翻译工作,提升了翻译效率;抽取和还原逻辑的执行效率高;还原的译稿保留原稿格式。

【技术实现步骤摘要】
一种利于翻译工作的文件抽取和还原方法
本专利技术涉及一种利于翻译工作的人工智能、文档处理的方法。
技术介绍
伴随着中国跻身于世界第二大经济体,“一带一路”等战略的稳步实施,中国各领域与世界的联系更为紧密。国际化的进程中多国之间的沟通交流所需要的语言支持服务市场显得愈加庞大,这给翻译行业带来了新的机遇和挑战。翻译行业的从业人员每天要面对大量的各种格式的需要翻译的稿件,由于稿件的种类繁多,相应的翻译人员就需要掌握各类文档程序如Word,Excel,PPT,PDF的使用以及各类文档辅助翻译工具的使用。这对于专职的翻译人员来说是很大的挑战和门槛,很明显这类问题已经阻碍到了整个行业的发展乃至于中国全球化的进程。因此,需要提出一种将等多种主流文档格式转换成为统一的标准样式的文档并且也可以反过来将转化得到的标准文档还原为原稿格式的方法。以简化翻译工作、提高翻译效率。
技术实现思路
本专利技术所要解决的技术问题是简化翻译工作、提高翻译效率,提出一种利于翻译工作的文件抽取和还原方法。为解决上述技术问题,本专利技术提出的利于翻译工作的文件抽取和还原方法,包括以下步骤:1)利用Aspose动态链接库对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;2)建立一个译员处理文档,所述译员处理文档设有“原文”、“译文”和id三个字段,所述“原文”字段对应句子原文,“译文”字段对应句子译文;3)将所述以单句为最小单位的待翻译数据集合中的每一个句子按顺序逐一复制到所述译员处理文档的“原文”字段,然后将待翻译数据集合中该句子的内容用一个具有唯一性的占位符号Guid替代,且相邻的占位符号Guid具有不同的字符格式;所述id字段的内容与所述不同的Guid之间具有一一映射的关系;4)将所述译员处理文档下发到译员,所述译员在所述译员处理文档中逐个翻译“原文”字段的原文,填写到对应的“译文”字段,直到处理完成;5)遍历所述待翻译数据集合和译员处理文档,根据不同Guid对应的不同id,找到该id对应的译文,覆盖写到所述待翻译数据集合中该对应Guid的位置。6)调用Aspose动态链接库,将所述待翻译数据集合还原为原稿格式的文档。所述将待翻译的文档对象拆解成以句为最小单位的待翻译数据集合,包括以下步骤:1-1调用Aspose组件;1-2遍历所述文档对象,得到全部段落对象,所述段落对象包含文档对象全部的文字信息,而不包括无需翻译的符号、图像或其它非文字信息;1-3遍历每一个段落对象的子节点对象,从而得到若干个的字符集合对象Run。Aspose组件中提供段落对象、子节点对象,以及方便字符操作的Run对象,所述Run对象是文档内连续的字符格式一致的字符片段集合。1-4遍历每一个Run对象,将全部Run对象拆分成一个个仅包含有一个完整的句子的Run对象,或者为仅包含有一个句子片段的Run对象;1-5遍历每一个Run对象,将仅包含有句子片段的Run对象合并到其后续的仅包含有一个完整的句子的Run对象中。完成后,得到以句子为最小单位的,一个个仅包含有一个完整的句子的Run对象的集合。所述将仅包含有一个句子片段的Run对象合并到后续Run对象,包括以下步骤:1-4-1将仅为一个句子片段的Run对象的字符内容取出,存放在临时存储单元,然后在段落对象中删除该Run对象;1-4-2检查下一个Run对象,如果该Run对象的字符内容仅为一个句子片段,则取出该Run对象的字符内容,添加到临时存储单元,然后在段落对象中删除该Run对象,继续检查下下一个Run对象;否则,取出临时存储单元存放字符内容,添加到该下一个Run对象的字符内容之前,然后清空所述临时存储单元。1-4-3如果该下一个Run对象的字符内容是以句子结束符作为结尾的,则将所述临时存储单元存放的字符内容取出,添加到该下一个Run对象的字符内容之前,然后清空所述临时存储单元。本专利技术还包括,建立一个字典对象,所述字典对象的key为原文,value为译文,原文-译文为一个键值对;在遍历所述译员处理文档时,将一个记录中对应的原文-译文,分别写入所述字典对象。在步骤5)中,如果一个id所在记录的译文栏为空,则在所述字典对象中,以该id所在记录的原文为key去查找是否有匹配的译文value,如果找到则以该译文填充译文栏。如果在所述字典对象中,没有找到匹配的译文value,则该句为漏译,直接使用原文进行填充,方便审校人员发现。进一步的,在将所述译员处理文档下发到译员之前,遍历所述译员处理文档,将重复的句子标记出来,提醒译员不需要重复翻译。进一步的,在将所述译员处理文档下发到译员之前,遍历所述译员处理文档,将原文中的句子与术语库中的术语进行自动匹配,如果匹配,则对该术语句子进行批注,使得翻译工作更加顺畅。更进一步的,在将所述译员处理文档下发到译员之前,遍历所述译员处理文档,将原文中的句子逐一与语料库中的语料比对匹配,如果匹配,则将语料库中的语料译文填写到该匹配句子对应的“译文”字段内。有益效果:本专利技术简化翻译人员的工作,使得翻译人员无需掌握各类主流文档程序如PPT、Word、EXCL、PDF的使用处理方法,从而能有更多的精力专注于文字翻译的工作中去。另外,通过在处理过程中自动预分析所需翻译的文稿,搜索出重复性的句子进行标记,所有重复性的句子均只需要翻译一次,其他则自动填充生成;收集每次的翻译成果,当接受到新的稿件时可以直接使用之前积累出来的语料和术语等信息,更进一步提升了翻译效率。附图说明下面结合附图和具体实施方式对本专利技术的技术方案作进一步具体说明。图1为本专利技术具体实施方式的译员翻译处理界面截图,图中的主要展示了一个已填充原文的译员处理文档。图2为本专利技术具体实施方式的另一译员翻译处理界面截图,图中的主要展示了一个已经过预处理的译员处理文档。图3为本专利技术整体流程图。具体实施方式本专利技术提出的利于翻译工作的文件抽取和还原方法,包括以下步骤:1)利用Aspose动态链接库对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;2)建立一个译员处理文档,所述译员处理文档设有“原文”、“译文”和id三个字段,所述“原文”字段对应句子原文,“译文”字段对应句子译文;3)将所述以单句为最小单位的待翻译数据集合中的每一个句子按顺序逐一复制到所述译员处理文档的“原文”字段,然后将待翻译数据集合中该句子的内容用一个具有唯一性的占位符号Guid替代,且相邻的占位符号Guid具有不同的字符格式;所述id字段的内容与所述不同的Guid之间具有一一映射的关系;4)将所述译员处理文档下发到译员,所述译员在所述译员处理文档中逐个翻译“原文”字段的原文,填写到对应的“译文”字段,直到处理完成;5)遍历所述待翻译数据集合和译员处理文档,根据不同Guid对应的不同id,找到该id对应的译文,覆盖写到所述待翻译数据集合中该对应Guid的位置。6)调用Aspose动态链接库,将所述待翻译数据集合还原生成文档处理工具所识别的翻译文稿。为更加理解本专利技术,下面以Word文档的处理、翻译为例,详细描述本专利技术的翻译处理过程:S1、调用Aspose组件;S2、遍历待翻译的Word文档对象,得到全部段落对象,该段落对象包含文档对象全部的文本文档来自技高网...
一种利于翻译工作的文件抽取和还原方法

【技术保护点】
一种利于翻译工作的文件抽取和还原方法,其特征在于,包括以下步骤:1)利用Aspose动态链接库对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;2)建立一个译员处理文档,所述译员处理文档设有“原文”、“译文”和id三个字段,所述“原文”字段对应句子原文,“译文”字段对应句子译文;3)将所述以单句为最小单位的待翻译数据集合中的每一个句子按顺序逐一复制到所述译员处理文档的“原文”字段,然后将待翻译数据集合中该句子的内容用一个具有唯一性的占位符号Guid替代,且相邻的占位符号Guid具有不同的字符格式;所述id字段的内容与所述不同的Guid之间具有一一映射的关系;4)将所述译员处理文档下发到译员,所述译员在所述译员处理文档中逐个翻译“原文”字段的原文,填写到对应的“译文”字段,直到处理完成;5)遍历所述待翻译数据集合和译员处理文档,根据不同Guid对应的不同id,找到该id对应的译文,覆盖写到所述待翻译数据集合中该对应Guid的位置;6)调用Aspose动态链接库,将所述待翻译数据集合还原生成原稿格式文档。

【技术特征摘要】
1.一种利于翻译工作的文件抽取和还原方法,其特征在于,包括以下步骤:1)利用Aspose动态链接库对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;所述将待翻译的文档对象拆解成以句为最小单位的待翻译数据集合,包括以下步骤:1-1调用Aspose组件;1-2遍历所述文档对象,得到全部段落对象,所述段落对象包含文档对象全部的文字信息,而不包括无需翻译的符号、图像或其它非文字信息;1-3遍历每一个段落对象的子节点对象,从而得到若干个的字符集合对象Run;1-4遍历每一个Run对象,将全部Run对象拆分成一个个仅包含有一个完整的句子的Run对象,或者为仅包含有一个句子片段的Run对象;1-5遍历每一个Run对象,将仅包含有句子片段的Run对象合并到其后续的仅包含有一个完整的句子的Run对象中;2)建立一个译员处理文档,所述译员处理文档设有“原文”、“译文”和id三个字段,所述“原文”字段对应句子原文,“译文”字段对应句子译文;3)将所述以单句为最小单位的待翻译数据集合中的每一个句子按顺序逐一复制到所述译员处理文档的“原文”字段,然后将待翻译数据集合中该句子的内容用一个具有唯一性的占位符号Guid替代,且相邻的占位符号Guid具有不同的字符格式;所述id字段的内容与所述不同的Guid之间具有一一映射的关系;4)将所述译员处理文档下发到译员,所述译员在所述译员处理文档中逐个翻译“原文”字段的原文,填写到对应的“译文”字段,直到处理完成;5)遍历所述待翻译数据集合和译员处理文档,根据不同Guid对应的不同id,找到该id对应的译文,覆盖写到所述待翻译数据集合中该对应Guid的位置;6)调用Aspose动态链接库,将所述待翻译数据集合还原生成原稿格式文档。2.根据权利要求1所述的利于翻译工作的文件抽取和还原方法,其特征在于,所述将仅包含有一个句子片段的Run对象合并到后续Run对象,包括以下步骤:1-4-1将仅为一个句子片段的Run对象的字符内容取出,存放在临时存储单...

【专利技术属性】
技术研发人员:江潮罗伟峰
申请(专利权)人:武汉传神信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1