当前位置: 首页 > 专利查询>刘羽专利>正文

基于PDF文件解析的图谱数据处理方法技术

技术编号:28624881 阅读:44 留言:0更新日期:2021-05-28 16:21
本发明专利技术公开了一种基于PDF文件解析的图谱数据处理方法,该方法包括:通过解析文件获得图谱位置范围;分析路径对象(Path Object)识别出图谱曲线、积分线、刻度线,并获得相关的相对坐标数据;分析图谱文件中文本对象获得包含相对坐标的纵/横坐标轴的刻度线标注及图谱参数数据;对所获的刻度线标注文本与对应刻度线的相对坐标进行匹配,获得纵坐标刻度信息数据和横坐标刻度信息数据;将上述数据保存为结构化文件;设置解析策略,通过绘图软件导入上述带有坐标位置的信息,生成被抓取的图谱的复制对象。上述复制对象可转移至报告文件,成为报告图谱。

【技术实现步骤摘要】
基于PDF文件解析的图谱数据处理方法
本专利技术涉及实验室报告书报告管理领域,是基于PDF文件解析的图谱数据处理方法。
技术介绍
图谱作为科学研究的重要手段,在分析实验中的作用巨大。图谱所反映的数据之间特征性的相关性直接或间接的反映出了被研究对象特定的物理化学性质,因此图谱解析作为现代实验室的主要研究手段异常重要。现有lims系统(实验室信息管理系统)及SDMS(科学数据管理系统)多是对图谱中的文字性记录进行采集,对图谱的采集支持较差。相关报告通常是采用工作站或专用软件的报告程序生成的报告文件作为附件提供。造成以下问题:1、图谱中的大量信息未被有效运用。2、所生成的报告格式不能统一。PDF(PortableDocumentFormat,便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档。上述的图谱数据都可以通过虚拟打印的方式实现图谱报告的输出,生成图谱的PDF文件。PDF文件因其独特的优点成了事实上的实验室通用报告文本。
技术实现思路
专利技术目的:本专利技术针对数据采集存在的问题,提出了本文档来自技高网...

【技术保护点】
1.一种基于PDF文件解析的图谱数据处理方法,其特征在于,所述处理方法包括以下步骤:/n步骤一:使用计算机软件工具对PDF文件进行解析,依次读取图谱报告中存在的的路径对象(Path Object),读取并对路径对象的位置信息进行分析,寻找并确定图谱的位置范围;/n步骤二:获取图谱报告中存在的的路径对象(Path Object),根据情况,并进一步识别为图谱曲线,坐标轴框架、积分线、积分线标记,将图谱曲线中的图谱坐标组合生成图谱相对坐标数据,将积分线的图谱坐标生成积分线相对坐标数据;/n步骤三:在图谱所处的位置范围内,获取文件图谱的文本对象的文本信息和图谱坐标,识别为纵坐标刻度线标注,横坐标刻度...

【技术特征摘要】
1.一种基于PDF文件解析的图谱数据处理方法,其特征在于,所述处理方法包括以下步骤:
步骤一:使用计算机软件工具对PDF文件进行解析,依次读取图谱报告中存在的的路径对象(PathObject),读取并对路径对象的位置信息进行分析,寻找并确定图谱的位置范围;
步骤二:获取图谱报告中存在的的路径对象(PathObject),根据情况,并进一步识别为图谱曲线,坐标轴框架、积分线、积分线标记,将图谱曲线中的图谱坐标组合生成图谱相对坐标数据,将积分线的图谱坐标生成积分线相对坐标数据;
步骤三:在图谱所处的位置范围内,获取文件图谱的文本对象的文本信息和图谱坐标,识别为纵坐标刻度线标注,横坐标刻度线标注,及图谱其他文本对象;进一步的,对图谱其他文本对象根据对象位置判断对象功能,将文本对象的文本及对象位置相对坐标匹配,生成图谱参数数据;
步骤四:在图谱所处的位置范围内,获取文件图谱的的路径对象(PathObject),根据情况,并进一步识别为纵坐标刻度线,横坐标刻度线,积分线、积分线标记,将积分线的图谱坐标生成积分线相对坐标数据;
步骤五:根据步骤三和步骤四的结果分别形成纵坐标刻度信息数据和横坐标刻度信息数据;
步骤六:将步骤二到步骤五所获得的信息保存为绘图参数;
步骤七:通过绘图软件导入步骤六所得到的绘图参数进行描绘,得到图谱;
步骤八:输出为图谱图片以供合成报告文件。


2.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述PDF文件为由生成数据的仪器设备的工作站或专用软件的报告程序通过调用PDF虚拟打印功能直接生成的具备规范内部结构的可被程序解析其中所包含的各类对象位置和内容的PDF文件。


3.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤一到步骤四中涉及的计算机工具软件包括而不仅限于C、C#、Python、Java、VisualStudio等计算机语言所创建的可对PDF文件内容进行解析的工具软件,进一步要求为可实现对PDF中各类对象的位置信息进行解析的工具软件,更进一步要求为Python语言中的Pdfminer或Pdfminer3K。


4.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤一到步骤四中的图谱坐标是基于PDF页面位置进行定位的相对坐标,为符合Pdfminer工具软件所定义对象属性中的x0、y0、x1、y1或pts数据包中的内容。


5.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤一中路径对象(PathObject)为符合Pdfminer工具软件所定义的LTRect对象。


6.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤一中所述图谱的准确位置范围系指由满足x1-x0最大且y1-y0最大的LTRect对象的x0、y0、x1、y1定义的矩形范围。


7.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤二中路径对象(PathObject)为符合Pdfminer工具软件所定义的LTCurve对象。


8.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤二中图谱坐标为LTCurve对象属性中的pts数据包内容。


9.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤二中将LTCurve对象识别为图谱曲线,坐标轴框架、积分线、积分线标记的方法具体为:
根据LTCurve对象属性中的pts数据包中坐标数量和坐标差值进行判断:
pts数据包中坐标数量为2,且所述两点之间的纵坐标之差与横坐标之差与其他包含坐标数量为2的pts数据包中的两点之间的纵坐标之差与横坐标之差均不同(偏差大于5%),则判断为积分线;
pts数据包中坐标数量大于2且小于5,且数据包中相邻的两个坐标的纵坐标及横坐标相等,出现重叠,则判断为积分线;
pts数据包中坐标数量为2,且所述两点之间的纵坐标之差与横坐标之差与其他包含坐标数量为2的pts数据包中的两点之间的纵坐标之差与横坐标之差相同(偏差小于5%),则判断为积分线标记;
pts数据包中坐标数量大于4,且数据包中第一个坐标与最后一个坐标两点的纵坐标和横坐标不相等,则判断为图谱曲线;
pts数据包中坐标数量等于5,且数据包中第一个坐标与最后一个坐标两点的纵坐标和横坐标相等,则判断为坐标轴框架。


10.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤二中组合生成图谱相对坐标数据的方法具体为:
对指定范围内的有序排列的绘制图谱曲线的一个或多个LTCurve对象进行逐一历遍,读取LTCurve对象属性中的pts数据包内容,添加到指定的数据列表生成组合pts数据列表。


11.根据权利要求1所述基于PDF文件解析的图谱数据处理方法,其特征在于,所述步骤三中文件图谱的文本对象为符合Pdfmin...

【专利技术属性】
技术研发人员:刘羽王辉李姜晖王贺付俐刘永
申请(专利权)人:刘羽
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1