对UOF文档进行分块转换的方法技术

技术编号:32771750 阅读:37 留言:0更新日期:2022-03-23 19:27
本发明专利技术提供了对UOF文档进行分块转换的方法,其能够对解压后的ODF文档进行分块切分处理,以此全面逐一地获得所有XML文档,并对每个XML文档进行解析处理和样式分析,从而得到相应的文档属性数据;接着基于该文档属性数据转换得到与ODF文档对应的UOF文档;最后标定该UOF文档存在的文档内容错误数据并进行备份,以及对该UOF文档进行打包压缩处理,这样能够全面地针对所有XML文档进行逐一转换,从而避免发生遗漏转换或者重复转换的情况以及提高UOF文档的转换可靠性。UOF文档的转换可靠性。UOF文档的转换可靠性。

【技术实现步骤摘要】
对UOF文档进行分块转换的方法


[0001]本专利技术涉及文档转换处理的
,特别涉及对UOF文档进行分块转换的方法。

技术介绍

[0002]UOF(Uified office document Format)文档是基于XML的开放式文档格式,其又被称作“标文通”文档。在对UOF文档进行转换的过程中存在文档解析出错以及转换内容无法打开的问题。同时现有的UOF文档转换技术并不能针对其中所有XML文档进行逐一的转换,这导致可能存在遗漏转换或者重复转换的情况发生,从而严重地降低UOF文档的转换效率和转换可靠性。

技术实现思路

[0003]针对现有技术存在的缺陷,本专利技术提供对UOF文档进行分块转换的方法,其包括对ODF文档进行解压处理,从而得到相应的解压ODF文档;对解压ODF文档进行分块切分,以此获得其中包含的若干XML文档;再对XML文档进行解析处理,从而得到相应的文档解析输出结果;接着对文档解析输出结果进行文档内容纠错后,对文档解析输出结果进行样式分析,从而得到关于ODF文档的文档属性数据;再对文档属性数据依次进行区分预处本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.对UOF文档进行分块转换的方法,其特征在于,其包括如下步骤:步骤S1,对ODF文档进行解压处理,从而得到相应的解压ODF文档;对所述解压ODF文档进行分块切分,以此获得其中包含的若干XML文档;再对所述XML文档进行解析处理,从而得到相应的文档解析输出结果;步骤S2,对所述文档解析输出结果进行文档内容纠错后,对所述文档解析输出结果进行样式分析,从而得到关于所述ODF文档的文档属性数据;再对所述文档属性数据依次进行区分预处理和转换处理,从而得到与所述ODF文档对应的UOF文档;步骤S3,对所述UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据;将所述文档内容错误数据上传至用户端进行备份后,对所述UOF文档进行打包压缩处理。2.如权利要求1所述的对UOF文档进行分块转换的方法,其特征在于:在所述步骤S1中,对ODF文档进行解压处理,从而得到相应的解压ODF文档具体包括:基于开源代码Zip Utils设计形成文档解压缩模块,并将所述文档解压模块上传至计算机终端中运行驱动,从而使所述文档解压缩模块对所述ODF文档进行解压处理,以此得到相应的解压ODF文档。3.如权利要求2所述的对UOF文档进行分块转换的方法,其特征在于:在所述步骤S1中,对所述解压ODF文档进行分块切分,以此获得其中包含的若干XML文档具体包括:对所述解压ODF文档进行扫描,以此确定所述解压ODF文档包含的所有XML文档各自的文档起止数据部分;根据所述XML文档各自的文档起止数据部分,对所述解压ODF文档进行分块切分,从而获得所述解压ODF文档包含的所有XML文档。4.如权利要求3所述的对UOF文档进行分块转换的方法,其特征在于:在所述步骤S1中,对所述XML文档进行解析处理,从而得到相应的文档解析输出结果具体包括:基于开源项目Xerces C++设计形成SAX解析模块,并将所述SAX解析模块上传至计算机终端中运行驱动,从而使所述SAX解析模块对所有XML文档分别进行解析处理,从而得到相应的文档解析输出结果;其中所述SAX解析模块对所有XML文档分别进行解析处理具体为:所述SAX解析模块分别对每个XML文档进行逐行扫描和解析处理,从而得到相应的XML文档解析结果和文档静态表,以此作为所述文档解析输出结果。5.如权利要求1所述的对UOF文档进行分块转换的方法,其特征在于:在所述步骤S2中,对所述文档解析输出结果进行文档内容纠错具体包括:对所述文档解析输出结果进行文档文字错误和/或语句语法的检查,以此确定所述文档解析输出结果包含的错误文字和/或存在语法错误的语句;再对所述错误文字和/或存在语法错误的语句进行纠错改正。6.如权利要求5所述的对UOF文档进行分块转换的方法,其特征在于:在所述步骤S2中,对所述文档解析结果进行样式分析,从而得到关于所述ODF文档的文
档属性数据具体包括:对纠错后的所述文档解析输出结果进行样式分析,从而得到所述ODF文档包含的段落属性数据、文字属性数据、大纲属性数据、表格属性数据和图像属性数据。7.如权利要求6所述的对UOF文档进行分块转换的方法,其特征在于:在所述步骤S2中,对所述文档属性数据依次进行区分预处理和转换处理,从而得到与所述ODF文档对应的UOF文档具体包括:首先,定义getID函数对所述段落属性数据、所述文字属性数据、所述大纲属性数据、所述表格属性数据和所述图像属性数据进行处理,从而生成所述段落属性数据、所述文字属性数据、所述表格属性数据和所述图像属性数据各自对应的属性编号值;再将所述ODF文档包含的meta.xml文档、styles.xml文档、content.xml文档、uof.xml文档和rules.xml文档中段落属性数据、文字属性数据、大纲属性数据对应的属性编号值进行存储,从而作为所述文档样式属性数据和文档分节属性数据;最后,对所述文档样式属性数据和所述文档分节属性数据进行主转换处理和后继转换处理,从而得到与所述ODF文档对应的UOF文档。8.如权利要求7所述的对UOF文档进行分块转换的方法,其特征在于:所述主转换处理包括定义分别关于MetaTranslator、StylesTranslator、ContentTranslator的三种转换方式;并利用上述三种转换方式对所述文档样式属性数据和所述文档分节属性数据进行转换处理,从而将所述ODF文档包含的meta.xml文档、styles.xml文档和content.xml文档进行转换处理;所述后继转换处理包括对所述uof.xml文档和所述rules.xml文档进行转换处理;最后,将对所述meta.xml文档、所述styles.xml文档和所述content.xml文档进行主转换处理的结果,以及对所述uof.xml文档和所述rules.xml文档进行后继转换处理的结果进行压缩,...

【专利技术属性】
技术研发人员:余丹周韩钰邢智涣
申请(专利权)人:慧之安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1