一种PDF文件解析方法及系统技术方案

技术编号:19861545 阅读:30 留言:0更新日期:2018-12-22 12:37
本发明专利技术公开了一种PDF文件解析方法及系统,该PDF文件解析方法包括:解析所述PDF文件,以得到解析后的字节;将所述字节重新组成对象;以及将所述对象进行分块,并将分块后的结果以预设的格式输出。本发明专利技术通过解析用户PDF格式的体检报告,得到解析后的字节,并将字节重组成对象,将对象进行分块,最后将分块后的结果以预设的格式输出,使用户能够通过在线查阅报告及报告解读等服务的方式,方便地在线查阅和解读其PDF格式的体检报告。本PDF文件解析系统能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。

【技术实现步骤摘要】
一种PDF文件解析方法及系统
本专利技术涉及PDF文档编辑
,具体涉及一种PDF文件解析方法及系统。
技术介绍
随着现有的用户健康体检平台的日趋完善,检后服务与健康大数据也成为不可缺少的一种趋势。用户体检完成后,可以在用户健康体检平台上通过在线查阅报告及报告解读等服务,方便地在线查阅和解读其体检报告。现有的体检报告主要以PDF格式存在,而PDF格式为特殊结构,现有的第三方库和技术上暂没有一套统一和完善的解析方法。因此,需要通过研发一套PDF体检数据的解析系统,便于为用户提供更加精准的检后服务及后期健康大数据的分析。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的问题,本专利技术提出一种PDF文件解析方法及系统,能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。本专利技术的技术方案是这样实现的:根据本专利技术的一个方面,提供了一种PDF文件解析方法,该PDF文件解析方法包括以下步骤:解析所述PDF文件,以得到解析后的字节;将所述字节重新组成对象;以及将所述对象进行分块,并将分块后的结果以预设的本文档来自技高网...

【技术保护点】
1.一种PDF文件解析方法,其特征在于,包括以下步骤:解析所述PDF文件,以得到解析后的字节;将所述字节重新组成对象;以及将所述对象进行分块,并将分块后的结果以预设的格式输出。

【技术特征摘要】
1.一种PDF文件解析方法,其特征在于,包括以下步骤:解析所述PDF文件,以得到解析后的字节;将所述字节重新组成对象;以及将所述对象进行分块,并将分块后的结果以预设的格式输出。2.根据权利要求1所述的PDF文件解析方法,其特征在于,解析所述PDF文件,以得到解析后的字节包括以下步骤:解析所述PDF文件的自身语言结构,并从中查找trailer标签;从所述trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。3.根据权利要求2所述的PDF文件解析方法,其特征在于,将所述字节重新组成对象包括以下步骤:将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。4.根据权利要求1所述的PDF文件解析方法,其特征在于,将分块后的结果以预设的格式输出包括以下步骤:将分块后的结果以Text格式输出;或将分块后的结果以JSON格式输出。5.根据权利要求3所述的PDF文件解析方法,其特征在于,所述对象包括字符串、行、页。6.一种PDF文件解析系统,其特...

【专利技术属性】
技术研发人员:黄建峰罗景田方海英
申请(专利权)人:杭州势成科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1