【技术实现步骤摘要】
一种利于翻译工作的文件抽取和还原方法
本专利技术涉及一种利于翻译工作的人工智能、文档处理的方法。
技术介绍
伴随着中国跻身于世界第二大经济体,“一带一路”等战略的稳步实施,中国各领域与世界的联系更为紧密。国际化的进程中多国之间的沟通交流所需要的语言支持服务市场显得愈加庞大,这给翻译行业带来了新的机遇和挑战。翻译行业的从业人员每天要面对大量的各种格式的需要翻译的稿件,由于稿件的种类繁多,相应的翻译人员就需要掌握各类文档程序如Word,Excel,PPT,PDF的使用以及各类文档辅助翻译工具的使用。这对于专职的翻译人员来说是很大的挑战和门槛,很明显这类问题已经阻碍到了整个行业的发展乃至于中国全球化的进程。因此,需要提出一种将等多种主流文档格式转换成为统一的标准样式的文档并且也可以反过来将转化得到的标准文档还原为原稿格式的方法。以简化翻译工作、提高翻译效率。
技术实现思路
本专利技术所要解决的技术问题是简化翻译工作、提高翻译效率,提出一种利于翻译工作的文件抽取和还原方法。为解决上述技术问题,本专利技术提出的利于翻译工作的文件抽取和还原方法,包括以下步骤:1)利用Aspose动态链接库对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;2)建立一个译员处理文档,所述译员处理文档设有“原文”、“译文”和id三个字段,所述“原文”字段对应句子原文,“译文”字段对应句子译文;3)将所述以单句为最小单位的待翻译数据集合中的每一个句子按顺序逐一复制到所述译员处理文档的“原文”字段,然后将待翻译数据集合中该句子的内容用一个具有唯一性的占位符号Guid替 ...
【技术保护点】
一种利于翻译工作的文件抽取和还原方法,其特征在于,包括以下步骤:1)利用Aspose动态链接库对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;2)建立一个译员处理文档,所述译员处理文档设有“原文”、“译文”和id三个字段,所述“原文”字段对应句子原文,“译文”字段对应句子译文;3)将所述以单句为最小单位的待翻译数据集合中的每一个句子按顺序逐一复制到所述译员处理文档的“原文”字段,然后将待翻译数据集合中该句子的内容用一个具有唯一性的占位符号Guid替代,且相邻的占位符号Guid具有不同的字符格式;所述id字段的内容与所述不同的Guid之间具有一一映射的关系;4)将所述译员处理文档下发到译员,所述译员在所述译员处理文档中逐个翻译“原文”字段的原文,填写到对应的“译文”字段,直到处理完成;5)遍历所述待翻译数据集合和译员处理文档,根据不同Guid对应的不同id,找到该id对应的译文,覆盖写到所述待翻译数据集合中该对应Guid的位置;6)调用Aspose动态链接库,将所述待翻译数据集合还原生成原稿格式文档。
【技术特征摘要】
1.一种利于翻译工作的文件抽取和还原方法,其特征在于,包括以下步骤:1)利用Aspose动态链接库对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;所述将待翻译的文档对象拆解成以句为最小单位的待翻译数据集合,包括以下步骤:1-1调用Aspose组件;1-2遍历所述文档对象,得到全部段落对象,所述段落对象包含文档对象全部的文字信息,而不包括无需翻译的符号、图像或其它非文字信息;1-3遍历每一个段落对象的子节点对象,从而得到若干个的字符集合对象Run;1-4遍历每一个Run对象,将全部Run对象拆分成一个个仅包含有一个完整的句子的Run对象,或者为仅包含有一个句子片段的Run对象;1-5遍历每一个Run对象,将仅包含有句子片段的Run对象合并到其后续的仅包含有一个完整的句子的Run对象中;2)建立一个译员处理文档,所述译员处理文档设有“原文”、“译文”和id三个字段,所述“原文”字段对应句子原文,“译文”字段对应句子译文;3)将所述以单句为最小单位的待翻译数据集合中的每一个句子按顺序逐一复制到所述译员处理文档的“原文”字段,然后将待翻译数据集合中该句子的内容用一个具有唯一性的占位符号Guid替代,且相邻的占位符号Guid具有不同的字符格式;所述id字段的内容与所述不同的Guid之间具有一一映射的关系;4)将所述译员处理文档下发到译员,所述译员在所述译员处理文档中逐个翻译“原文”字段的原文,填写到对应的“译文”字段,直到处理完成;5)遍历所述待翻译数据集合和译员处理文档,根据不同Guid对应的不同id,找到该id对应的译文,覆盖写到所述待翻译数据集合中该对应Guid的位置;6)调用Aspose动态链接库,将所述待翻译数据集合还原生成原稿格式文档。2.根据权利要求1所述的利于翻译工作的文件抽取和还原方法,其特征在于,所述将仅包含有一个句子片段的Run对象合并到后续Run对象,包括以下步骤:1-4-1将仅为一个句子片段的Run对象的字符内容取出,存放在临时存储单...
【专利技术属性】
技术研发人员:江潮,罗伟峰,
申请(专利权)人:武汉传神信息技术有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。