多文件格式版式文档的对比方法技术

技术编号:27461966 阅读:65 留言:0更新日期:2021-02-25 05:23
本发明专利技术公开了一种多文件格式版式文档的对比方法,文档元素提取环节是依据不同版式文档格式的标准作为参考,对标准版式文档的格式解析与内容读取,并将最终解析出来的数据内容作为文档元素抽象环节的输入数据;按上述输入数据将文档中的主要图元元素抽象转换为自定义的文档图元结构,并将抽象后的文档图元结构数据以不同后缀类型的文件分类保存;文档内容对比环节按照文件后缀名分类,逐类型地进行图元抽象文件的读取与对比操作,且将对比结果作为文档差异输出环节的输入数据,对差异结果进行汇总、合并与展示。提供了一个弹性的质量效果衡量工具,解决了当前人工检测文档转换质量所存在的检测效率与准确性低下的弊端。所存在的检测效率与准确性低下的弊端。所存在的检测效率与准确性低下的弊端。

【技术实现步骤摘要】
多文件格式版式文档的对比方法


[0001]本专利技术版式文档元素提取技术,特别涉及一种多文件格式版式文档的对比方法。

技术介绍

[0002]我国已经正式将OFD格式确立为我国电子文件的国家标准。OFD格式诞生之前,国内的文档格式应用较为混乱。此前市场上应用最广泛的是美国Adobe公司推出的PDF(Portable Document Format)版式的文档格式,其被广泛应用在电子商务和文档管理等领域,此外党委机关使用CEBX格式,政府机关使用的书生SEP格式、学术领域使用的知网CAJ格式互不兼容。国内电子文档由于缺乏统一的版式标准而应用混乱,而文件的长期保存也面临困境。
[0003]文档数据来源有三类:第一类为原生文档,即创建一个新的文档;第二类为转换文档,即由其他格式的电子文档转换而来;第三类为纸质文档,通过扫描生成的文档。
[0004]可以预见,对于上述版式文档数据来源的第二类,来自文档转换途径的需求量将会越来越大,在当前实际情况中,日益增多的文档云转换需求亦是体现了这一预期。目前,对于文档转换业务只能通过人工肉眼方式对转换本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多文件格式版式文档的对比方法,包括:文档元素提取环节、文档元素抽象环节、文档内容对比环节和文档差异输出环节;所述文档元素提取环节是依据不同版式文档格式的标准作为参考,对版式文档进行格式解析与内容读取,并将最终解析出来的数据内容作为文档元素抽象环节的输入数据;所述文档元素抽象环节是依赖于文档元素提取环节的结果数据,并按上述输入数据将文档中的主要图元元素抽象转换...

【专利技术属性】
技术研发人员:章杰刘绍军
申请(专利权)人:江西金格科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1