PDF文件的预览方法、生成方法及处理方法技术

技术编号:20546075 阅读:34 留言:0更新日期:2019-03-09 19:00
本发明专利技术提供一种PDF文件的预览方法、生成方法以及处理方法,该预览方法包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;获取输入的PDF预览信息;根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF;根据绝对定位的方式获得文字的顺序排列,获取与文字对应的字体文件和图片文件并进行重组;并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。

Preview Method, Generation Method and Processing Method of PDF Files

The invention provides a preview method, a generation method and a processing method of PDF files. The preview method includes: parsing the original PDF files, obtaining the text and style, fonts and pictures in the original PDF files; randomly disrupting the order of the text and style parts in the acquired text and style to form a disordered file by absolute positioning; and entering the disordered file formed by each page of PDF. Line storage and associated storage of font files and picture files corresponding to the Chinese characters in the page PDF; access to the input PDF preview information; query the stored disordered files according to the PDF preview information to obtain the page PDF or multi-page PDF where the PDF preview information is located; acquire the sequential arrangement of the text according to the absolute positioning method, and obtain the font files and picture files corresponding to the text. Line reorganization; and display the reorganized PDF or multi-page PDF in the browser side in the form of PDF, which satisfies the PDF preview information.

【技术实现步骤摘要】
PDF文件的预览方法、生成方法及处理方法
本专利技术涉及一种文件处理技术,且特别涉及一种PDF文件的预览方法、生成方法及处理方法。
技术介绍
PDF文件(便携式文档格式)是由AdobeSystems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。目前互联网上大部分的内容或信息都以PDF文件的形式向用户展示。用户在使用中需要对PDF文件进行预览或编辑。对于预览而言,目前主要有三种方式,第一种方式是用户通过下载整个PDF文件来实现文档内容阅读。在该种方法中,必须下载完整的PDF,文件可能过大且无法控制用户可以阅读的权限,同时极容易被爬虫爬取,不利于版权保护。第二种方式是服务器将PDF转换成图片提供预览,该种方法中PDF文件转换成图片时,图片过大会浪费传输流量和时间。第三种方式是服务器将PDF转换成纯文本提供预览,转换成纯文本时,无法还原PDF文件的原貌,可能造成用户阅读困难。对于编辑而言,第一种是使用官方的PDF阅读器对PDF进行编辑操作,官方的PDF阅读器编辑PDF流程繁琐、可操作性差且其安装所占用的计算机内存也非常的大,使用非常的不方便。第二种方法是将PDF转换成word格式进行编辑,再重新生成PDF,这种方式生成PDF的代码过于繁琐,不够灵活,且难以形成完整的解决方案。
技术实现思路
本专利技术为了克服现有技术的不足,提供一种PDF文件的预览方法、生成方法及处理方法。为了实现上述目的,本专利技术提供一种PDF文件的预览方法,该方法包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;获取输入的PDF预览信息;根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF;根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组;并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。根据本专利技术的一实施例,在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形,再将可缩放矢量图形中的文字打乱形成乱序文件。根据本专利技术的一实施例,在将每一页PDF所形成的乱序文件进行存储时,将该页中与文字对应的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。根据本专利技术的一实施例,所述PDF预览信息包括原始PDF文件的页数或原始PDF文件中所包含的词语。另一方面,本专利技术还提供一种PDF文件的生成方法,该方法包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;获取输入的PDF生成信息;根据PDF生成信息查询存储的乱序文件,获得生成信息所在的那一页PDF或多页的PDF;根据绝对定位的方式获得文字的顺序排列并将重组后的文字和样式转换为满足可缩放矢量图形的文件;将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件。根据本专利技术的一实施例,PDF生成信息包括定位信息和编辑信息,所述定位信息为原始PDF文件的页数或原始PDF文件中所包含的词语,所述编辑信息为基于定位信息对PDF文件进行修改的信息。根据本专利技术的一实施例,当输入的PDF生成信息包含编辑信息时,首先根据定位信息查询存储的乱序文件,获得定位信息所在的那一页PDF或多页的PDF;然后根据编辑信息对定位信息所在的文本进行修改。根据本专利技术的一实施例,所述编辑信息包括对文字的删除、增加或修改。根据本专利技术的一实施例,在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形,再将可缩放矢量图形中的文字打乱形成乱序文件。另一方面,本专利技术还提供一种PDF文件的处理方法,该处理方法包括:上述任一项PDF文件的预览方法以及上述任一项PDF文件的生成方法。综上所述,本专利技术提供的PDF文件的预览方法、生成方法及处理方法通过将原始的PDF文件进行解析,将PDF文件中的文本和样式进行随机打乱存储,同时关联存储相应的字体文件和图片文件,随机打乱存储可有效防止PDF文件内的内容被爬虫爬取,提高文档的版权保护。当获取到PDF预览信息或PDF生成信息时,根据PDF预览信息或PDF生成信息查询乱序文件,获得需要预览或生成的PDF的页数,实现部分PDF文件的提取,将提取的部分PDF文件进行预览或重新生成PDF。在预览时,用户无需下载PDF文件,在浏览器端即可实现PDF文件的查看;同样的,在生成PDF文件时,用户也可直接在浏览器端对PDF文件进行编辑。该设置大大提高了用户对PDF文件的浏览和编辑PDF文件时的速度。此外,本发提供的PDF文件的预览方法、生成方法及处理方法用户无需下载PDF文件即可实现PDF文件的浏览以及编辑,同时在浏览PDF和生成PDF时可通过提取部分页面来控制用户的浏览权限,即可控浏览,该设置在反爬虫的基础上进一步增加文件的安全性。为让本专利技术的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。附图说明图1所示为本专利技术实施例一提供的PDF文件的预览方法的流程图。图2所示为本专利技术实施例二提供的PDF文件的生成方法的流程图。图3所示为本专利技术实施例三提供的PDF文件的处理方法的流程图。具体实施方式实施例一如图1所示,本实施例提供的PDF文件的预览方法包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片(步骤S10)。将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件(步骤S20)。将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件(步骤S30)。获取输入的PDF预览信息(步骤S40)。根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF(步骤S50)。根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组(步骤S60)。在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF(步骤S70)。本实施例提供的PDF文件的预览方法将原始的PDF文件进行解析存储,根据用户输入的PDF预览信息来实现部分PDF文件的预览。该种预览方式不仅大大提高了现有浏览器端PDF文件的浏览速度;同时展示的部分文档是基于用户输入的PDF预览信息,用户可快速在原始PDF文件中定位并获得其所需要的文件信息,其它无关的信息不会对用户造成干扰。进一步的,目前互联网上很多的PDF文件需要付费后才能浏览,在实际使用中,用户需要支付整个PDF文件的费用后才能实现浏览;而本实施例提供的PDF文件的预览方法可实现部分PDF文件的付费浏览,使用更加的灵活、方便,也更有利于版权的保护。以下将结合图1详细介绍本实施例提供的PDF文件的预览方法。本实施例提供PDF文件的本文档来自技高网...

【技术保护点】
1.一种PDF文件的预览方法,其特征在于,包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;获取输入的PDF预览信息;根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF;根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组,并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。

【技术特征摘要】
1.一种PDF文件的预览方法,其特征在于,包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;获取输入的PDF预览信息;根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF;根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组,并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。2.根据权利要求1所述的PDF文件的预览方法,其特征在于,在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形,再将可缩放矢量图形中的文字打乱形成乱序文件。3.根据权利要求1所述的PDF文件的预览方法,其特征在于,在将每一页PDF所形成的乱序文件进行存储时,将该页中与文字对应的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。4.根据权利要求1所述的PDF文件的预览方法,其特征在于,所述PDF预览信息包括原始PDF文件的页数或原始PDF文件中所包含的词语。5.一种PDF文件的生成方法,其特征在于,包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件...

【专利技术属性】
技术研发人员:许卫鹏
申请(专利权)人:杭州索骥数据科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1