一种文档解析翻译方法和装置制造方法及图纸

技术编号:24122764 阅读:28 留言:0更新日期:2020-05-13 03:35
本发明专利技术公开一种文档解析翻译方法和装置,该方法包括以下步骤:解析原始文档,生成资源文件目录;对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;根据待翻译文本文件的语言类型,获取与待翻译文本文件对应的目标语言文本,并根据目标语言文本完善待翻译文本文件;根据文档内容解析文件与完善后的待翻译文本文件,对资源文件进行修改与替换;重新打包资源文件,生成译文文档。本发明专利技术能够提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持原始文档展示样式不变的前提下完成文档从源语种到目标语种的转换。

A method and device of document analysis and Translation

【技术实现步骤摘要】
一种文档解析翻译方法和装置
本专利技术涉及数据处理
,特别涉及一种文档解析翻译方法和装置。
技术介绍
随着全球一体化进程的深入,跨语言获取信息成为一种常态,而Word格式和PowerPoint格式的文档作为目前最流行的文字处理程序和演示文稿软件,已成为被全球用户广泛使用的信息载体,大量的文档直接采用或者可以格式无损地转化为Word格式或者PowerPoint格式的文档,能够将Word格式或者PowerPoint格式的文档所承载的信息在不同语言之间转换,大大提高了跨语言的信息获取效率。现有的文档翻译解决方案通常存在以下问题:(1)在解析原始文档时,只抽取原始文档的文本信息,而忽略样式信息和其他非文本元素,导致翻译生成的目标文档丢失了源原始文档的图、表以及信息布局等重要信息,不利于阅读和理解文档语义。(2)由于Word格式和PowerPoint格式的文档的元素标签粒度较大,翻译生成的目标文档会大量丢失原始文档的格式信息,破坏了原始文档原有的排版格式,给阅读造成了视觉障碍,甚至造成译文文档的格式混乱。
技术实现思路
本专利技术提供了一种文档解析翻译方法和装置,以解决现有的文档翻译解决方案大量丢失原始文档的格式信息,破坏原始文档原有的排版格式的缺陷。本专利技术提供了一种文档解析翻译方法,包括以下步骤:解析原始文档,生成资源文件目录;对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;其中,所述文档内容解析文件是基于所述主文档xml文件内部的最小处理单元标签所创建的,所述待翻译文本文件是基于处理所述最小处理单元标签时所提取的原文字符串生成的;根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件;根据所述文档内容解析文件与完善后的待翻译文本文件,对所述资源文件进行修改与替换;重新打包所述资源文件,生成译文文档。可选地,所述根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件,包括:通过识别所述待翻译文本文件的字符编码,确定所述待翻译文本文件的语言类型,通过将所述待翻译文本文件依次提交翻译引擎,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。可选地,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:提取所述主文档xml文件内部的最小处理单元标签的所处层级、样式、内部包含的标签以及两个最小处理单元标签之间存在的其他标签,作为对主文档xml文件的的分析结果,并根据所述分析结果生成文档内容解析文件;提取所述最小处理单元标签中的原文字符串,并根据所述原文字符串生成待翻译文本文件。可选地,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:针对主文档xml文件的结构特点,对所述主文档xml文件内部的最小处理标签的层级、最小处理标签之间存在的其他标签、最小处理标签中包含的标签以及最小处理标签的样式属性进行分析,当识别到结构差异或者样式差异较大的最小处理标签时,提取该最小处理标签的位置信息,以及该最小处理标签之前的字符信息加以记录,生成待翻译文本文件和文档内容解析文件。可选地,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:对资源文件中的主文档xml文件进行解析,将分析结果写入文档内容解析文件,将提取的字符信息写入待翻译文本文件。本专利技术还提供了一种文档解析翻译装置,包括:解析模块,用于解析原始文档,生成资源文件目录;对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;其中,所述文档内容解析文件是基于所述主文档xml文件内部的最小处理单元标签所创建的,所述待翻译文本文件是基于处理所述最小处理单元标签时所提取的原文字符串生成的;翻译模块,用于根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件;处理模块,用于根据所述文档内容解析文件与完善后的待翻译文本文件,对所述资源文件进行修改与替换;重新打包所述资源文件,生成译文文档。可选地,所述翻译模块,具体用于通过识别所述待翻译文本文件的字符编码,确定所述待翻译文本文件的语言类型,通过将所述待翻译文本文件依次提交翻译引擎,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。可选地,所述解析模块,具体用于提取所述主文档xml文件内部的最小处理单元标签的所处层级、样式、内部包含的标签以及两个最小处理单元标签之间存在的其他标签,作为对主文档xml文件的的分析结果,并根据所述分析结果生成文档内容解析文件;提取所述最小处理单元标签中的原文字符串,并根据所述原文字符串生成待翻译文本文件。可选地,所述解析模块,具体用于针对主文档xml文件的结构特点,对所述主文档xml文件内部的最小处理标签的层级、最小处理标签之间存在的其他标签、最小处理标签中包含的标签以及最小处理标签的样式属性进行分析,当识别到结构差异或者样式差异较大的最小处理标签时,提取该最小处理标签的位置信息,以及该最小处理标签之前的字符信息加以记录,生成待翻译文本文件和文档内容解析文件。可选地,所述解析模块,具体用于对资源文件中的主文档xml文件进行解析,将分析结果写入文档内容解析文件,将提取的字符信息写入待翻译文本文件。本专利技术对资源文件中的主文档xml文件进行解析,根据解析得到的文档内容解析文件和待翻译文本文件支撑后续翻译工作的推进,在不影响文档展示格式的前提下,尽力构建文本翻译的上下文环境,为提升翻译准确率做铺垫,从而保留源文档各个非文本元素的内容和展示样式,保持译文文档与源文档的文本元素具有一致的显示样式,进而提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持原始文档展示样式不变的前提下完成文档从源语种到目标语种的转换。附图说明图1为本专利技术实施例中的一种文档解析翻译方法流程图;图2为本专利技术实施例中的一种文档解析翻译方法的任务流程示意图;图3为本专利技术实施例中的docx格式的文档的资源文件的结构图;图4为本专利技术实施例中的docx格式的文档的解析流程图;图5为本专利技术实施例中的docx格式的文档的文件处理流程S201的示意图;图6为本专利技术实施例中的docx格式的文档的合成流程图;图7为本专利技术实施例中的pptx格式的文档的资源文件的结构图;图8为本专利技术实施例中的pptx格式的文档的解析流程图;图9为本专利技术实施例中的pptx格式的文档的文件处理流程S201的示意图;图10为本专利技术实施例中的pptx格式的文档的合成流程图;...

【技术保护点】
1.一种文档解析翻译方法,其特征在于,包括以下步骤:/n解析原始文档,生成资源文件目录;/n对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;其中,所述文档内容解析文件是基于所述主文档xml文件内部的最小处理单元标签所创建的,所述待翻译文本文件是基于处理所述最小处理单元标签时所提取的原文字符串生成的;/n根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件;/n根据所述文档内容解析文件与完善后的待翻译文本文件,对所述资源文件进行修改与替换;/n重新打包所述资源文件,生成译文文档。/n

【技术特征摘要】
1.一种文档解析翻译方法,其特征在于,包括以下步骤:
解析原始文档,生成资源文件目录;
对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;其中,所述文档内容解析文件是基于所述主文档xml文件内部的最小处理单元标签所创建的,所述待翻译文本文件是基于处理所述最小处理单元标签时所提取的原文字符串生成的;
根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件;
根据所述文档内容解析文件与完善后的待翻译文本文件,对所述资源文件进行修改与替换;
重新打包所述资源文件,生成译文文档。


2.如权利要求1所述的方法,其特征在于,所述根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件,包括:
通过识别所述待翻译文本文件的字符编码,确定所述待翻译文本文件的语言类型,通过将所述待翻译文本文件依次提交翻译引擎,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。


3.如权利要求1所述的方法,其特征在于,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:
提取所述主文档xml文件内部的最小处理单元标签的所处层级、样式、内部包含的标签以及两个最小处理单元标签之间存在的其他标签,作为对主文档xml文件的的分析结果,并根据所述分析结果生成文档内容解析文件;
提取所述最小处理单元标签中的原文字符串,并根据所述原文字符串生成待翻译文本文件。


4.如权利要求1所述的方法,其特征在于,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:
针对主文档xml文件的结构特点,对所述主文档xml文件内部的最小处理标签的层级、最小处理标签之间存在的其他标签、最小处理标签中包含的标签以及最小处理标签的样式属性进行分析,当识别到结构差异或者样式差异较大的最小处理标签时,提取该最小处理标签的位置信息,以及该最小处理标签之前的字符信息加以记录,生成待翻译文本文件和文档内容解析文件。


5.如权利要求1所述的方法,其特征在于,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和...

【专利技术属性】
技术研发人员:宋伟刘圣王鹏飞焦亚鑫赵化育
申请(专利权)人:北京迈迪培尔信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1