一种Excel文档的解析翻译方法和装置制造方法及图纸

技术编号:24170180 阅读:18 留言:0更新日期:2020-05-16 02:41
本发明专利技术公开一种Excel文档的解析翻译方法和装置,该方法包括:解析Excel文档,生成Excel资源文件目录;对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;将所述文档结构文件中的文本元素替换为所述译文内容;根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;重新打包所述Excel资源文件,生成译文Excel文档。本发明专利技术对Excel资源文件中的xml文件进行解析,根据解析得到的文档结构文件和待翻译文本列表文件支撑后续翻译工作的推进,从而实现在保持Excel原文档展示样式不变的前提下完成文档从源语种到目标语种的转换。

An analytical translation method and device for EXCEL documents

【技术实现步骤摘要】
一种Excel文档的解析翻译方法和装置
本专利技术涉及数据处理
,特别涉及一种Excel文档的解析翻译方法和装置。
技术介绍
随着全球一体化进程的深入,跨语言获取信息成为一种常态,而Excel文档作为目前最流行的电子数据表程序,已成为被全球用户广泛使用的信息载体,大量的文档直接采用或者可以格式无损地转化为Excel文档,能够将Excel文档所承载的信息在不同语言之间转换,大大提高了跨语言的信息获取效率。现有的Excel文档翻译解决方案通常存在以下问题:(1)在解析Excel文档时,只抽取Excel文档的文本信息,而忽略样式信息和其他非文本元素,导致翻译生成的Excel文档丢失了源Excel文档的图、表以及信息布局等重要信息,不利于阅读和理解文档语义。(2)由于Excel文档的元素标签粒度较大,翻译生成的Excel文档会大量丢失源Excel文档的格式信息,破坏了源Excel文档原有的排版格式,给阅读造成了视觉障碍,甚至造成译文文档的格式混乱。
技术实现思路
本专利技术提供了一种Excel文档的解析翻译方法和装置,已解决现有的Excel文档翻译解决方案大量丢失源Excel文档的格式信息,破坏源Excel文档原有的排版格式的缺陷。本专利技术提供了一种Excel文档的解析翻译方法,包括以下步骤:解析Excel文档,生成Excel资源文件目录;对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;其中,所述待翻译文本列表文件中的文本内容与所述文档结构文件中的文本元素相对应;对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;将所述文档结构文件中的文本元素替换为所述译文内容,并根据目标语种对所述文本元素进行格式调整;根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;重新打包所述Excel资源文件,生成译文Excel文档。可选地,所述对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表,包括:解析所述Excel资源文件中的第一组xml文件,生成文档结构文件,并从文档结构文件中提取文本内容和对应的展现样式信息,极大化构建文本内容的上下文信息,生成待翻译文本列表。可选地,所述对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表,包括:对Excel资源文件中的第一组xml文件进行解析,生成标签数组,对所述标签数组中的每个标签的类型进行判断,并根据判断结果,生成文档结构文件和待翻译文本列表。可选地,所述对所述标签数组中的每个标签的类型进行判断,包括:依次判断所述标签数组中的每个标签是否为开标签及非文本标签。可选地,所述根据判断结果,生成文档结构文件和待翻译文本列表,包括:若所述标签数组中的第一标签不是开标签,则将所述第一标签写入文档结构文件;若所述标签数组中的第二标签既是开标签又是非文本标签,则将所述第二标签写入文档结构文件;若所述标签数组中的第三标签是开标签但不是非文本标签,则读取第三标签的标签样式,若所述第三标签的标签样式与所述标签数组中位于所述第三标签之前的标签的样式相同,则将所述第三标签写入文档结构文件和待翻译文本列表。本专利技术还提供了一种Excel文档的解析翻译装置,包括:解析模块,用于解析Excel文档,生成Excel资源文件目录;对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;其中,所述待翻译文本列表文件中的文本内容与所述文档结构文件中的文本元素相对应;翻译模块,用于对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;处理模块,用于将所述文档结构文件中的文本元素替换为所述译文内容,并根据目标语种对所述文本元素进行格式调整;根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;重新打包所述Excel资源文件,生成译文Excel文档。可选地,所述解析模块,具体用于解析所述Excel资源文件中的第一组xml文件,生成文档结构文件,并从文档结构文件中提取文本内容和对应的展现样式信息,极大化构建文本内容的上下文信息,生成待翻译文本列表。可选地,所述解析模块,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,对所述标签数组中的每个标签的类型进行判断,并根据判断结果,生成文档结构文件和待翻译文本列表。可选地,所述解析模块,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,依次判断所述标签数组中的每个标签是否为开标签及非文本标签,并根据判断结果,生成文档结构文件和待翻译文本列表。可选地,所述解析模块,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,依次判断所述标签数组中的每个标签是否为开标签及非文本标签,若所述标签数组中的第一标签不是开标签,则将所述第一标签写入文档结构文件;若所述标签数组中的第二标签既是开标签又是非文本标签,则将所述第二标签写入文档结构文件;若所述标签数组中的第三标签是开标签但不是非文本标签,则读取第三标签的标签样式,若所述第三标签的标签样式与所述标签数组中位于所述第三标签之前的标签的样式相同,则将所述第三标签写入文档结构文件和待翻译文本列表。本专利技术对Excel资源文件中的xml文件进行解析,根据解析得到的文档结构文件和待翻译文本列表文件支撑后续翻译工作的推进,在不影响文档展示格式的前提下,尽力构建文本翻译的上下文环境,为提升翻译准确率做铺垫,从而保留源文档各个非文本元素的内容和展示样式,保持译文文档与源文档的文本元素具有一致的显示样式,进而提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持Excel原文档展示样式不变的前提下完成文档从源语种到目标语种的转换。附图说明图1为本专利技术实施例中的一种Excel文档的解析翻译方法流程图;图2为本专利技术实施例中的一种Excel文档的解析翻译方法的任务流程示意图;图3为本专利技术实施例中的Excel资源文件的结构图;图4为本专利技术实施例中的文档解析流程图;图5为本专利技术实施例中的文档合成流程图;图6为本专利技术实施例中的一种Excel文档的解析翻译装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种Excel文档的解析翻译方法,如图1所示,包括以下步骤:步骤101,解析Excel文档,生成Excel资源文件本文档来自技高网...

【技术保护点】
1.一种Excel文档的解析翻译方法,其特征在于,包括以下步骤:/n解析Excel文档,生成Excel资源文件目录;/n对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;其中,所述待翻译文本列表文件中的文本内容与所述文档结构文件中的文本元素相对应;/n对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;/n将所述文档结构文件中的文本元素替换为所述译文内容,并根据目标语种对所述文本元素进行格式调整;/n根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;/n重新打包所述Excel资源文件,生成译文Excel文档。/n

【技术特征摘要】
1.一种Excel文档的解析翻译方法,其特征在于,包括以下步骤:
解析Excel文档,生成Excel资源文件目录;
对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;其中,所述待翻译文本列表文件中的文本内容与所述文档结构文件中的文本元素相对应;
对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;
将所述文档结构文件中的文本元素替换为所述译文内容,并根据目标语种对所述文本元素进行格式调整;
根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;
重新打包所述Excel资源文件,生成译文Excel文档。


2.如权利要求1所述的方法,其特征在于,所述对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表,包括:
解析所述Excel资源文件中的第一组xml文件,生成文档结构文件,并从文档结构文件中提取文本内容和对应的展现样式信息,极大化构建文本内容的上下文信息,生成待翻译文本列表。


3.如权利要求1所述的方法,其特征在于,所述对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表,包括:
对Excel资源文件中的第一组xml文件进行解析,生成标签数组,对所述标签数组中的每个标签的类型进行判断,并根据判断结果,生成文档结构文件和待翻译文本列表。


4.如权利要求3所述的方法,其特征在于,所述对所述标签数组中的每个标签的类型进行判断,包括:
依次判断所述标签数组中的每个标签是否为开标签及非文本标签。


5.如权利要求4所述的方法,其特征在于,所述根据判断结果,生成文档结构文件和待翻译文本列表,包括:
若所述标签数组中的第一标签不是开标签,则将所述第一标签写入文档结构文件;若所述标签数组中的第二标签既是开标签又是非文本标签,则将所述第二标签写入文档结构文件;若所述标签数组中的第三标签是开标签但不是非文本标签,则读取第三标签的标签样式,若所述第三标签的标签样式与所述标签数组中位于所述第三标签之前的标签的样式相同,则将所述第三标签写入文档结构文件和待翻译文本列表。


6.一...

【专利技术属性】
技术研发人员:宋伟王鹏飞尹涓涓赵化育焦亚鑫陈强
申请(专利权)人:北京迈迪培尔信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1