The invention provides a preview method, a generation method and a processing method of PDF files. The preview method includes: parsing the original PDF files, obtaining the text and style, fonts and pictures in the original PDF files; randomly disrupting the order of the text and style parts in the acquired text and style to form a disordered file by absolute positioning; and entering the disordered file formed by each page of PDF. Line storage and associated storage of font files and picture files corresponding to the Chinese characters in the page PDF; access to the input PDF preview information; query the stored disordered files according to the PDF preview information to obtain the page PDF or multi-page PDF where the PDF preview information is located; acquire the sequential arrangement of the text according to the absolute positioning method, and obtain the font files and picture files corresponding to the text. Line reorganization; and display the reorganized PDF or multi-page PDF in the browser side in the form of PDF, which satisfies the PDF preview information.
【技术实现步骤摘要】
PDF文件的预览方法、生成方法及处理方法
本专利技术涉及一种文件处理技术,且特别涉及一种PDF文件的预览方法、生成方法及处理方法。
技术介绍
PDF文件(便携式文档格式)是由AdobeSystems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。目前互联网上大部分的内容或信息都以PDF文件的形式向用户展示。用户在使用中需要对PDF文件进行预览或编辑。对于预览而言,目前主要有三种方式,第一种方式是用户通过下载整个PDF文件来实现文档内容阅读。在该种方法中,必须下载完整的PDF,文件可能过大且无法控制用户可以阅读的权限,同时极容易被爬虫爬取,不利于版权保护。第二种方式是服务器将PDF转换成图片提供预览,该种方法中PDF文件转换成图片时,图片过大会浪费传输流量和时间。第三种方式是服务器将PDF转换成纯文本提供预览,转换成纯文本时,无法还原PDF文件的原貌,可能造成用户阅读困难。对于编辑而言,第一种是使用官方的PDF阅读器对PDF进行编辑操作,官方的PDF阅读器编辑PDF流程繁琐、可操作性差且其安装所占用的计算机内存也非常的大,使用非常的不方便。第二种方法是将PDF转换成word格式进行编辑,再重新生成PDF,这种方式生成PDF的代码过于繁琐,不够灵活,且难以形成完整的解决方案。
技术实现思路
本专利技术为了克服现有技术的不足,提供一种PDF文件的预览方法、生成方法及处理方法。为了实现上述目的,本专利技术提供一种PDF文件的预览方法,该方法包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺 ...
【技术保护点】
1.一种PDF文件的预览方法,其特征在于,包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;获取输入的PDF预览信息;根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF;根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组,并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。
【技术特征摘要】
1.一种PDF文件的预览方法,其特征在于,包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;获取输入的PDF预览信息;根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF;根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组,并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。2.根据权利要求1所述的PDF文件的预览方法,其特征在于,在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形,再将可缩放矢量图形中的文字打乱形成乱序文件。3.根据权利要求1所述的PDF文件的预览方法,其特征在于,在将每一页PDF所形成的乱序文件进行存储时,将该页中与文字对应的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。4.根据权利要求1所述的PDF文件的预览方法,其特征在于,所述PDF预览信息包括原始PDF文件的页数或原始PDF文件中所包含的词语。5.一种PDF文件的生成方法,其特征在于,包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件...
【专利技术属性】
技术研发人员:许卫鹏,
申请(专利权)人:杭州索骥数据科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。