The invention provides a PDF file processing method and a device, wherein the method includes: judging whether a character to be split in a PDF file is a compound font; searching for a character's CMAP if it is a compound font; parsing the CMap found to determine the number of bytes of the character; and according to the number of bytes of the character and the content stream of the PDF file, matching. Character is split. The PDF file processing method and device provided by the invention can determine whether the characters to be split in the PDF file are compound fonts, and if they are compound fonts, find the CMap of the characters, parse the CMap found, determine the number of bytes of the characters, and split the characters according to the number of bytes of the characters and the content stream of the PDF file. Separation, to achieve accurate and rapid separation of complex fonts in PDF files, to meet the PDF file containing both simple fonts and composite fonts splitting requirements.
【技术实现步骤摘要】
PDF文件处理方法及装置
本专利技术涉及计算机技术,尤其涉及一种PDF文件处理方法及装置。
技术介绍
PDF(PortableDocumentFormat,便携式文档格式),是一种与应用程序、操作系统、硬件无关的文件格式,可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,集成度和安全可靠性都较高。在某些情况下,我们需要把PDF中显示的字符串进行拆分。如果PDF文件中都是简单字体,那么拆分就比较容易,因为简单字体一个字节代表一个字符,那么把待拆分的字符串按字节一个一个进行拆分即可。但对于包含复合字体的PDF文件来说,由于复合字体的复杂性,无法直接采用简单字体的拆分方法。因此,目前急需一种既可以针对简单字体又可以针对复合字体进行拆分的方法。
技术实现思路
本专利技术提供一种PDF文件处理方法及装置,用以解决现有技术中PDF文件中复合字体难以直接拆分的技术问题。本专利技术提供一种PDF文件处理方法,包括:判断PDF文件中待拆分的字符是否为复合字体;若为复合字体,则查找所述字符的CMap;对查找到的CMap进行解析,确定所述字符的字节数;根据所述字符的字节数以及PDF文件的内容流,对字符进行拆分。进一步地,所述方法还包括:向用户显示PDF文件中包含的全部字体类型,所述字体类型包括下述至少一项:Type1、TrueType、Type3、CID;接收用户根据所述PDF文件中的全部字体类型输入的需要拆分的字体类型;相应的,判断PDF文件中待拆分的字符是否为复合字体,包括:判断待拆分的字符是否属于用户输入的需要拆分的字体类型:若否,则跳过该字符进行 ...
【技术保护点】
1.一种PDF文件处理方法,其特征在于,包括:判断PDF文件中待拆分的字符是否为复合字体;若为复合字体,则查找所述字符的CMap;对查找到的CMap进行解析,确定所述字符的字节数;根据所述字符的字节数以及PDF文件的内容流,对字符进行拆分。
【技术特征摘要】
1.一种PDF文件处理方法,其特征在于,包括:判断PDF文件中待拆分的字符是否为复合字体;若为复合字体,则查找所述字符的CMap;对查找到的CMap进行解析,确定所述字符的字节数;根据所述字符的字节数以及PDF文件的内容流,对字符进行拆分。2.根据权利要求1所述的方法,其特征在于,还包括:向用户显示PDF文件中包含的全部字体类型,所述字体类型包括下述至少一项:Type1、TrueType、Type3、CID;接收用户根据所述PDF文件中的全部字体类型输入的需要拆分的字体类型;相应的,判断PDF文件中待拆分的字符是否为复合字体,包括:判断待拆分的字符是否属于用户输入的需要拆分的字体类型:若否,则跳过该字符进行下一字符的拆分;若是,则判断所述待拆分的字符是否为复合字体。3.根据权利要求1所述的方法,其特征在于,还包括:接收用户输入的优先级信息,所述优先级信息包括各个字体类型对应的优先级;相应的,在对PDF文件中的字符进行拆分时,优先级高的先进行拆分,优先级低的后进行拆分。4.根据权利要求1所述的方法,其特征在于,还包括:接收用户输入的水印替换信息,所述水印替换信息包括用户期望使用的水印;在对PDF文件中的字符进行拆分完成之后,查找PDF文件中的水印;根据所述用户期望使用的水印,对PDF文件中原有的水印进行替换。5.根据权利要求1-4任一项所述的方法,其特征在于,在根据所述字符的字节数以及PDF文件的内容流,对字符进行拆分之后,还包括:利用PDF中显示字符串的操作符,把字符拆开来显示。6.一种PDF文件处理装置,其特征在于,包括...
【专利技术属性】
技术研发人员:郭相军,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。