当前位置: 首页 > 专利查询>刘羽专利>正文

基于PDF文件解析的图谱数据还原方法技术

技术编号:28624879 阅读:43 留言:0更新日期:2021-05-28 16:21
本发明专利技术公开了基于PDF文件解析的图谱数据还原方法,该方法包括:通过解析文件获得图谱位置范围;依据图谱中各类相关对象的位置属性,识别分类不同功能的数据及相对坐标;通过数据间的相互关系,获得图谱中的特定点的相对坐标和绝对坐标,并进一步获得相对坐标和绝对坐标所对应的横坐标校正系数和纵坐标校正系数;通过对所获得的相对坐标数据的换算,得到构建图谱的绝对坐标数据,从而实现对PDF图谱数据的还原。将PDF格式的图谱内容转换为反映图谱特征的、数值与原始数据接近、可操作可检索的数据,使图谱数据的使用脱离原专用系统、工作站、工作程序的限制,提升图谱数据的交换、查询、比对的便利性,方便进行数据的统一管理。

【技术实现步骤摘要】
基于PDF文件解析的图谱数据还原方法
本专利技术涉及基于PDF文件解析的图谱数据还原方法,属于文件数据解析领域。
技术介绍
图谱作为科学研究的重要手段,在分析实验中的作用巨大。图谱通常以包含纵坐标与横坐标的散点图形式出现,通常呈现连续性变化,其纵坐标与横坐标具有特征性的相关性。例如液相图谱:洗脱物质的吸收值与洗脱时间的对应关系;紫外分光光度的扫描图谱:样品吸光值与步进变化的波长之间的对应关系;晶体的X衍射:步进变化的衍射角2θ与强度标值I之间的对应关系等等。这种特征性的相关性直接或间接的反映出了被研究对象特定的物理化学性质,因此图谱解析作为现代实验室的主要研究手段异常重要。现代分析仪器通常采用安装于PC机、工作站或者网络服务器的专用工作软件进行数据抓取和分析,仪器与专用软件之间属于一对一的匹配,具有专属性;综合型实验室因为研究目标、研究手段、设备更新等原因,又存在实际应用场景中的多样性。例如实验室会配备多种研究设备采用不同的方法(如液相色谱、气相色谱、质谱、核磁共振、热分析等)对同一研究目标从多方面进行研究,且由于商业竞争、仪器本文档来自技高网...

【技术保护点】
1.基于PDF文件解析的图谱数据还原方法,其特征在于,所述处理方法包括以下步骤:/n步骤一:使用计算机软件工具对PDF文件进行解析,依次获取图谱报告中存在的的路径对象(Path Object),读取并对路径对象的位置信息进行分析,寻找并确定图谱的位置范围;/n步骤二:获取图谱报告中存在的的路径对象(Path Object),根据情况,并进一步识别为图谱曲线、坐标轴框架、积分线、积分线标记,将图谱曲线中的图谱坐标组合生成图谱相对坐标数据,将积分线的图谱坐标生成积分线相对坐标数据;/n步骤三:在图谱所处的位置范围内,获取文件图谱的文本对象的文本信息和图谱坐标,识别为纵坐标刻度线标注,横坐标刻度线标...

【技术特征摘要】
1.基于PDF文件解析的图谱数据还原方法,其特征在于,所述处理方法包括以下步骤:
步骤一:使用计算机软件工具对PDF文件进行解析,依次获取图谱报告中存在的的路径对象(PathObject),读取并对路径对象的位置信息进行分析,寻找并确定图谱的位置范围;
步骤二:获取图谱报告中存在的的路径对象(PathObject),根据情况,并进一步识别为图谱曲线、坐标轴框架、积分线、积分线标记,将图谱曲线中的图谱坐标组合生成图谱相对坐标数据,将积分线的图谱坐标生成积分线相对坐标数据;
步骤三:在图谱所处的位置范围内,获取文件图谱的文本对象的文本信息和图谱坐标,识别为纵坐标刻度线标注,横坐标刻度线标注,及图谱其他文本对象;进一步的,对图谱其他文本对象根据对象位置判断对象功能,将文本对象的文本及对象相对坐标匹配,生成图谱参数数据;
步骤四:在图谱所处的位置范围内,获取文件图谱的的路径对象(PathObject),根据情况,并进一步识别为纵坐标刻度线,横坐标刻度线,积分线、积分线标记,将积分线的图谱坐标生成积分线相对坐标数据;
步骤五:根据步骤三和步骤四的结果分别形成纵坐标刻度信息数据和横坐标刻度信息数据;
步骤六:解析文件中数据汇总表的文本信息及文本的位置信息生成汇总表数据;
步骤七:读取或计算文件图谱中特定点的绝对坐标及对应的相对坐标;
步骤八:根据已知特定点组合的绝对坐标数据及相对坐标数据,计算图谱的横坐标校正系数与纵坐标校正系数;
步骤九:采用已知绝对坐标及相对坐标的特定点之一作为参照点,根据步骤八得到的横坐标校正系数与纵坐标校正系数,将步骤二得到的图谱相对坐标数据逐一进行换算,得到绝对坐标,生成图谱绝对坐标数据字典;
步骤十:采用已知的绝对坐标及相对坐标的特定点之一作为参照点,根据步骤八得到的横坐标与纵坐标的校正系数,将步骤三得到的图谱参数数据中的相对坐标数据逐一进行换算,得到绝对坐标,生成包含有绝对坐标的图谱参数数据字典;
步骤十一:采用已知的绝对坐标及相对坐标的特定点之一作为参照点,根据步骤八得到的横坐标与纵坐标的校正系数,将步骤二或步骤四得到的积分线相对坐标数据中的相对坐标逐一进行换算,得到绝对坐标,生成积分线绝对坐标数据字典;
步骤十二:将图谱绝对坐标数据字典,包含有绝对坐标的图谱参数数据字典,积分线绝对坐标数据字典合并打包生成结构化数据备用。


2.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述PDF文件为由生成数据的仪器设备的工作站或专用软件的报告程序通过调用PDF虚拟打印功能直接生成的具备规范内部结构的可被程序解析其中所包含的各类对象位置和内容的PDF文件。


3.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤一到步骤四中涉及的计算机工具软件包括而不仅限于C、C#、Python、Java、VisualStudio等计算机语言所创建的可对PDF文件内容进行解析的工具软件,进一步要求为可实现对PDF中各类对象的位置信息进行解析的工具软件,更进一步要求为Python语言中的Pdfminer或Pdfminer3K。


4.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤一到步骤四中的图谱坐标是基于PDF页面位置进行定位的相对坐标,为符合Pdfminer工具软件所定义对象属性中的x0、y0、x1、y1或pts数据包中的内容。


5.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤一中路径对象(PathObject)为符合Pdfminer工具软件所定义的LTRect对象。


6.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤一中图谱的准确位置范围系指由满足x1-x0最大且y1-y0最大的LTRect对象的x0,y0,x1,y1定义的矩形范围。


7.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤二中路径对象(PathObject)为符合Pdfminer工具软件所定义的LTCurve对象。


8.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤二中图谱坐标为LTCurve对象属性中的pts数据包内容。


9.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤二中将LTCurve对象识别为图谱曲线,坐标轴框架、积分线、积分线标记的方法具体为:
根据LTCurve对象属性中的pts数据包中坐标数量和坐标差值进行判断:
pts数据包中坐标数量为2,且所述两点之间的纵坐标之差与横坐标之差与其他包含坐标数量为2的pts数据包中的两点之间的纵坐标之差与横坐标之差均不同(偏差大于5%),则判
断为积分线;
pts数据包中坐标数量大于2且小于5,且数据包中相邻的两个坐标的纵坐标及横坐标相等,出现重叠,则判断为积分线;
pts数据包中坐标数量为2,且所述两点之间的纵坐标之差与横坐标之差与其他包含坐标数量为2的pts数据包中的两点之间的纵坐标之差与横坐标之差相同(偏差小于5%),则判断为积分线标记;
pts数据包中坐标数量大于4,且数据包中第一个坐标与最后一个坐标两点的纵坐标和横坐标不相等,则判断为图谱曲线;
pts数据包中坐标数量等于5,且数据包中第一个坐标与最后一个坐标两点的纵坐标和横坐标相等,则判断为坐标轴框架。


10.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤二中组合生成图谱相对坐标数据的方法具体为:
对指定范围内的有序排列的绘制图谱曲线的一个或多个LTCurve对象进行逐一历遍,读取LTCurve对象属性中的pts数据包内容,添加到指定的数据列表生成组合pts数据列表。


11.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤三中文件图谱的文本对象为符合Pdfminer工具软件所定义的LTTextBox特征的数据对象;上述数据对象进一步优选为符合Pdfminer工具软件所定义的LTTextBoxHorizontal特征的数据对象。


12.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤三中文本对象识别为纵坐标刻度线标注,横坐标刻度线标注,及图谱其他文本对象的方法具体为:
文本对象之间位置属性中的x1相等,且对象的文本为文本型数字,则判断为纵坐标刻度线标注;
文本对象之间位置属性中的y0或y1相等,且对象的文本为文本型数字,则判断为横坐标刻度线标注;
文本对象不满足上述两种情况,则判断为图谱其他文本对象。


13.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤四中路径对象(PathObject)为符合Pdfminer工具软件所定义的LTLine对象。


14.根据权利要求1所述基于PDF文件解析的图谱数据还原方法,其特征在于,所述步骤四中识别为纵坐标刻度线,横坐标刻度线,积分线、积分线标记的具体方法为:
路径对象之间位置属性中的x1相等,且路径对象的y0=y1,则判断为纵坐标刻度线,其在纵坐标轴上的相...

【专利技术属性】
技术研发人员:刘羽王贺王辉李姜晖刘永付俐
申请(专利权)人:刘羽
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1