The invention discloses a table extraction method based on OFD documents, which includes data parsing function flow and data application function flow. The application layer and logic layer are separated so that the two parts do not affect each other, and the problem of unable to extract tables from OFD documents due to document format and application environment factors is solved. The function of extracting form from OFD document is realized. The architecture is clear, easy to understand, easy to implement, easy to debug programs and later maintenance, and protection enhances the extensibility of extraction technology. Fully based on the standard format of the OFD document, there is little need for other software support besides the method of the invention, and the cost is reduced. Non-destructive table extraction can be achieved. It can also extract and edit relevant information such as text in the form.
【技术实现步骤摘要】
一种基于OFD文档的表格提取方法
本专利技术涉及电子文档格式的处理技术,特别涉及一种基于OFD文档的表格提取方法。
技术介绍
版式文档格式,是将文字、图形、图像等多种数字内容对象按照一定规则进行版面固化呈现的一种格式。OFD(openfixedlayoutdocument)文档是由国家自主研发,独立于软件、硬件、操作系统、输出设备的版式文档格式。随着国家对OFD版式文档的需求及应用推广力度的增加,现在各行各业对OFD文档的使用也越来越频繁。目前OFD文档,除了文档内容的阅读以外,还有文档批注、编辑书签、加盖电子印章、编辑附件等功能,而在政府和机关单位对于OFD文档的批示及盖章操作尤为频繁。由于OFD文档的定义及格式限制,其设计目的是为了阅读和打印文档,而与阅读器的交互就比较弱,其中就包含图像、表格、文字等内容的提取。目前的阅读器都只能相对轻松的对OFD文档中的文字内容进行提取,而对提取图像或表格,总是存在效率低、精确度低或无法实现等问题。目前虽然可以通过屏幕截取的方式提取表格,但是屏幕截取方式因涉及到硬件设备DPI,图片易失真,屏幕截取出的表格内容不可选取也不能进行编辑。
技术实现思路
本专利技术为了解决上述技术问题,提供一种基于OFD文档的表格提取方法,以OFD文档标准规范为核心,通过对OFD文档内容的解析,在OFD文档中实现了提取表格功能,能使OFD文档与其它应用程序的交互性更强,提升OFD文档的应用性,同时也可以提升工作效率。本专利技术采用以下技术方案实现上述目的。一种基于OFD文档的表格提取方法,包括应用接口模块、数据管理模块、数据提取模块和数据解析模 ...
【技术保护点】
1.一种基于OFD文档的表格提取方法,包括应用接口模块、数据管理模块、数据提取模块和数据解析模块,其特征在于,所述应用接口模块:提供通俗易懂的接口函数,给上层应用调用;同时,负责调用数据管理模块用以实现接口函数;所述数据管理模块:用于对数据提取模块和数据解析模块的调度,同时用于汇总由数据提取模块和数据解析模块的数据内容,并将数据交付给应用接口模块使用;所述数据提取模块:对OFD文档进行解析,从OFD文档中提取所有数据,并将其按表格数据对象和非表格数据对象分类,并将分类数据统一交给数据管理模块进行统一分配管理;所述数据解析模块:从数据管理模块中获取到表格数据对象,通过表格边框查找算法,将所有表格数据对象进行统一归类处理,得出表格对象,并将表格对象组成表格列表,并将表格列表交给数据管理模块。
【技术特征摘要】
1.一种基于OFD文档的表格提取方法,包括应用接口模块、数据管理模块、数据提取模块和数据解析模块,其特征在于,所述应用接口模块:提供通俗易懂的接口函数,给上层应用调用;同时,负责调用数据管理模块用以实现接口函数;所述数据管理模块:用于对数据提取模块和数据解析模块的调度,同时用于汇总由数据提取模块和数据解析模块的数据内容,并将数据交付给应用接口模块使用;所述数据提取模块:对OFD文档进行解析,从OFD文档中提取所有数据,并将其按表格数据对象和非表格数据对象分类,并将分类数据统一交给数据管理模块进行统一分配管理;所述数据解析模块:从数据管理模块中获取到表格数据对象,通过表格边框查找算法,将所有表格数据对象进行统一归类处理,得出表格对象,并将表格对象组成表格列表,并将表格列表交给数据管理模块。2.根据权利要求1所述的基于OFD文档的表格提取方法,其特征在于,所述表格数据:为构成表格的基本元素,可理解为线段,其包含有线段的起始点X轴坐标和Y轴坐标,终止点X轴坐标和Y轴坐标,以及是否为虚线的数据内容。3.根据权利要求1所述的基于OFD文档的表格提取方法,其特征在于,所述表格数据对象:为一种表格数据集合。4.根据权利要求1所述的基于OFD文档的表格提取方法,其特征在于,所述非表格数据对象:为文字、图片和批注的非线段数据内容。5.根据权利要求1所述的基于OFD文档的表格提取方法,其特征在于,所述表格对象:为由表格对象数据构成的完整表格。6.根据权利要求1所述的基于OFD文档的表格提取方法,其特征在于,所述表格列表:为由表格对象组成的列表。7.根据权利要求1所述的基于OFD文档的表格提取方法,其特征在于,所述数据解析模块的具体流程如...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:江西金格科技股份有限公司,
类型:发明
国别省市:江西,36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。