This application provides a PDF report data extraction method and device. The method includes: creating an XML format template corresponding to the report template according to a PDF document format report template, in which the XML format template includes the report head, the name of each data item, and the coordinates of the table head and each data item. There is no corresponding data for the data item in the report template. According to the coordinates of each data item in the XML format template, the data corresponding to the data item is extracted from the target PDF document with the same report template and data items. The report in XML format is formed according to the table header of the XML format template and the data corresponding to the extracted data item. The report data in PDF document format is extracted by XML format template, which is convenient for statistics of the report data and greatly improves the recognition and flexibility of the report.
【技术实现步骤摘要】
PDF报表数据提取方法及装置
本申请涉及数据提取领域,具体而言,涉及一种PDF报表数据提取方法及装置。
技术介绍
PDF格式具有很强的安全性,保证了PDF文档不能被编辑,至少不能被轻易修改,对PDF文件内的小部分变动可能问题不大,但对PDF文档中的整块文字或影像的修改就相当困难,即便使用编辑工具,也无法避开这类限制。并且PDF格式的文档可通过设置权限,限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除,而其他格式则很容易地被修改或编辑。鉴于以上安全性保障,各大公司的财务报表都是以PDF格式形式进行发布,能够避免数据被肆意篡改的风险。PDF虽然带来了安全性、传输可靠性上的保证,但对于财务报表数据的统计也带来了许多不便,因此,从PDF中提取报表数据信息的需求也就应运而生。
技术实现思路
为了解决上述问题,本申请实施例提供一种PDF报表数据提取方法及装置。第一方面,本申请实施例提供一种PDF报表数据提取方法,所述方法包括:根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标 ...
【技术保护点】
1.一种PDF报表数据提取方法,其特征在于,所述方法包括:根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据;根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;根据所述XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。
【技术特征摘要】
1.一种PDF报表数据提取方法,其特征在于,所述方法包括:根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据;根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;根据所述XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。2.根据权利要求1所述的方法,其特征在于,根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,包括:对所述PDF文档中的第一页面树PagesRoot进行检索,以获取第一页面字典;对所述第一页面字典进行检索,以获取第一页面字典中的第一Contents字典项;对所述第一Contents字典项进行检索,以获取所述第一Contents字典项中的第一内容流;根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,其中所述内容信息包括报表的表头、各个数据项名称,所述坐标信息包括表头和各个数据项坐标。3.根据权利要求2所述的方法,其特征在于,所述XML格式模板包括名称节点和坐标节点,其中,所述坐标节点为所述名称节点的子节点,所述根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,包括:将所述第一内容流中的内容信息写入所述XML格式模板的名称节点中;将所述第一内容流中的坐标信息写入所述XML格式模板的坐标节点中。4.根据权利要求3所述的方法,其特征在于,在根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据之前,还包括解析目标PDF文档的步骤,所述步骤具体包括:对所述目标PDF文档中的第二页面树PagesRoot进行检索,以获取第二页面字典;多所述第二页面字典进行检索,以获取第二页面字典中的第二Contents字典项;对所述第二Contents字典项进行检索,以获取所述第二Contents字典项中的第二内容流。5.根据权利要求4所述的方法,其特征在于,所述根据XML格式模板的表头和提取的数据项对...
【专利技术属性】
技术研发人员:许德峰,
申请(专利权)人:万兴科技股份有限公司,
类型:发明
国别省市:西藏,54
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。