PDF样例文件的检索方法和装置制造方法及图纸

技术编号:8563002 阅读:127 留言:0更新日期:2013-04-11 04:39
本发明专利技术提供了一种PDF样例文件的检索方法和装置,方法包括:按照由文件属性和/或对象属性组成的逻辑表达式在存储的多条总记录和/或分记录中检索,确定对应的PDF样例文件;其中,每条所述总记录用于存储从每个PDF样例文件解析的与文件属性集合中相同的文件属性、以及对应的表索引;所述表索引指向的表包括:多条分记录,每条所述分记录用于存储从所述总记录对应的PDF样例文件解析的与对象属性集合中相同的对象属性;每条所述分记录存储的对象属性来源于所述总记录对应的PDF样例文件中的一页。本发明专利技术的方法有效扩展了检索的范围,提高了后续测试的效率。

【技术实现步骤摘要】

本专利技术涉及计算机检索
,具体而言,涉及一种PDF样例文件的检索方法和装置
技术介绍
印刷行业的软件测试过程中,通过I3DF的样例文件对软件进行测试。这些PDF样例文件具有用于测试的属性,如字符属性、颜色属性等。当需要测试软件的某项功能时,需要查找具有相应属性的PDF样例文件。目前,相关技术中检索用于测试的HF样例文件的过程包括将HF样例文件用于测试的属性按照命名规则构成其自身的名称;确定用于测试的样例文件所具有的属性;在PDF样例文件的名称中检索是否包含确定的属性,如果包含,则将检索到的PDF样例文件作为用于测试的PDF样例文件。由于文件名长度有限,不能记录文件的全部属性,所以查找的范围比较有限。
技术实现思路
本专利技术旨在提供一种PDF样例文件的检索方法和装置,以解决上述由于文件名长度有限,不能记录文件的全部属性,所以查找的范围比较有限的问题。在本专利技术的实施例中,提供了一种PDF样例文件的检索方法,包括按照由文件属性和/或对象属性组成的逻辑表达式在存储的多条总记录和/或分记录中检索,确定对应的PDF样例文件;其中,每条所述总记录用于存储从每个PDF样例文件解析的与文件属性集合中相同的文件属性、以及对应的表索引;所述表索引指向的表包括多条分记录,每条所述分记录用于存储从所述总记录对应的PDF样例文件解析的与对象属性集合中相同的对象属性;每条所述分记录存储的对象属性来源于所述总记录对应的PDF样例文件中的一页。在本专利技术的实施例中,还提供了一种PDF样例文件的检索装置,包括检索模块,用于按照由文件属性和/或对象属性组成的逻辑表达式在存储的多条总记录和/或分记录中检索;其中,每条所述总记录用于存储从每个PDF样例文件解析的与文件属性集合中相同的文件属性、以及对应的表索引;所述表索引指向的表包括多条分记录,每条所述分记录用于存储从所述总记录对应的PDF样例文件解析的与对象属性集合中相同的对象属性;每条所述分记录存储的对象属性来源于所述总记录对应的PDF样例文件中的一页;确定模块,根据所述检索的结果确定对应的PDF样例文件。本专利技术因为采用总记录存储文件属性、通过分记录存储对象属性,所以克服了文件名长度有限,不能记录文件的全部属性,查找的范围有限的问题,进而达到了按照存储的文件属性和对象属性,确定对应的各个PDF样例文件,扩大了检索范围,缩短了检索时间,提闻了后续的测试的效率。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图1示出了优选实施例的流程图;图2示出了实施例中将总记录和分记录存储到数据库的流程图;图3示出了实施例中在数据库中通过检索总记录和/或分记录确定对应的PDF文件的流程图;图4示出了实施例中的装置结构框图。具体实施例方式下面将参考附图并结合实施例,来详细说明本专利技术。参见图1,包括以下步骤Sll :按照由文件属性和/或对象属性组成的逻辑表达式在存储的多条总记录和/或分记录中检索。其中,每条所述总记录用于存储从每个PDF样例文件解析的与文件属性集合中相同的文件属性、以及对应的表索引;所述表索引指向的表包括多条分记录,每条所述分记录用于存储从所述总记录对应的PDF样例文件解析的与对象属性集合中相同的对象属性;每条所述分记录存储的对象属性来源于所述总记录对应的PDF样例文件中的一页。S12 :确定对应的PDF样例文件。通过上述实施例的步骤,预先在数据库中建立对应PDF样例文件的总记录和分记录,通过总记录和分记录的数据关系,存储每个PDF样例文件中系统所需要的全部属性。在后续的查找过程中,采用含有各种属性的检索式,都可通过存储的属性找到相应的PDF样例文件,有效扩展了检索的范围,提闻了后续测试的效率。优选地,上述实施例中的总记录、分记录通过以下步骤存储到数据库中,参见图2,包括S21 选择PDF样例文件;接收对文件夹中各个PDF样例文件的选择,或接收存储路径,按照存储路径批量获得路径下的所有PDF样例文件。S22 :解析各个PDF样例文件,获得文件头、内容流文件、交叉索引表;交叉索引表用于记录各个对象在内容流文件中的位置,如第几页,第几行等。S23 :通过交叉索引表在内容流文件中解析出各个对象;这些对象分布在PDF样例文件的各个页面中,每个对象可以是页面中的一个字符、或一个图形、或图形的一部分等。S24 :检索文件属性集合中与解析的文件头相同的文件属性;在解析的文件头中,包括多个文件属性。这些文件属性至少包括以下之一生成所述PDF样例文件的软件类型属性、PDF版本属性、预分色属性、总页码属性、输出描述属性、加密属性、PDFX版本属性等。其中,预分色属性为解析的PDF样例文件是否为预分色文件,输出描述属性为是否存在输出的描述信息。文件属性为用户预先设置的属性的集合,用于存储测试过程中所需要的各个文件属性。这种属性的集合也可称为属性字典。属性字典中不仅存储各个文件属性;优选地,还可存储有每个文件属性的属性项,如文件属性为PDF版本属性的各个属性项。S25 :检索对象属性集合中与从内容流文件中解析的对象相同的对象属性;步骤S24与S25可同时执行,也可先后执行,执行的先后顺序不相互影响其它步骤的执行。对象属性至少包括以下之一注释内容属性、图像对象属性、渐变属性、路径属性、字体属性、字体内容属性、色彩空间类型属性、函数属性、透明属性、填充属性。存储的对象属性除了各个属性外,也还存储有每个属性的属性项。具体如下注释内容属性注释类型(Widget Type、Link、FreeText、CirCle、Polygon、Ployline、Highlight、Underline、Squiggly、StrikeOut> Stamp、Caret、Ink、FileAttachment、sound、Movie、PrinterMark、TrapNet、WaterMark、ThreeD)、Widge 是否可以输出、AP字典内N对象类型(流对象、词典对象、其它对象)图像对象属性图像类型(Normal、Inlinelmage、Mask、explictMask、ColorkeyMask、Smask)、位深(1、2、4、6、8、16)、是否存在线高为I的图像、是否存在线宽为I的图像、X方向分辨率、Y方向分辨率、是否存在缺省的Decode、呈色意向、叠印模式、是否叠印、是否前端组装、图像处理类型、是否前端变倍、图像变倍算法、trasfer类型、是否裁切、色面数量、是否变形、是否含有UCR、是否含有BG、挂网类型、挂网中是否存在Transfer、挂网 Spot 函数类型、bHasTwoSquaresThreshold)渐变属性渐变类型、是否定义了背景颜色、叠印模式、是否定义了 BBox、是否含有UCR、是否为类型2的PatterruTransfer类型、是否多输出函数、是否叠印、是否含有BG、函数类型、是否多输出、是否多输入、是否存在Range项路径属性路径类型、是否存在闭合SubPath、是否存在曲线、是否存在零向量、是否存在定点数越界、绘制操作符、Trasfer类型、是否叠印、是否含有UCR、是否存在多个SubPat本文档来自技高网...

【技术保护点】
一种PDF样例文件的检索方法,其特征在于,包括:按照由文件属性和/或对象属性组成的逻辑表达式在存储的多条总记录和/或分记录中检索,确定对应的PDF样例文件;其中,每条所述总记录用于存储从每个PDF样例文件解析的与文件属性集合中相同的文件属性、以及对应的表索引;所述表索引指向的表包括:多条分记录,每条所述分记录用于存储从所述总记录对应的PDF样例文件解析的与对象属性集合中相同的对象属性;每条所述分记录存储的对象属性来源于所述总记录对应的PDF样例文件中的一页。

【技术特征摘要】
1.一种PDF样例文件的检索方法,其特征在于,包括 按照由文件属性和/或对象属性组成的逻辑表达式在存储的多条总记录和/或分记录中检索,确定对应的PDF样例文件;其中,每条所述总记录用于存储从每个PDF样例文件解析的与文件属性集合中相同的文件属性、以及对应的表索引;所述表索引指向的表包括多条分记录,每条所述分记录用于存储从所述总记录对应的PDF样例文件解析的与对象属性集合中相同的对象属性;每条所述分记录存储的对象属性来源于所述总记录对应的HF样例文件中的一页。2.根据权利要求1所述的方法,其特征在于,所述总记录通过以下步骤生成 从每个所述PDF样例文件中解析出文件头; 判断所述文件头中是否具有与文件属性集合中相同的文件属性; 如果有,则将所述相同的文件属性存储在每个所述PDF样例文件对应的每条所述总记录中。3.根据权利要求2所述的方法,其特征在于,所述分记录通过以下步骤生成 从每个所述PDF样例文件解析出所述文件头的同时,解析出内容流和交叉索引表; 通过所述交叉索引表在所述内容流中定位当前解析的PDF样例文件中每页的对象; 判断所述每页的对象中是否具有与所述对象属性集合中相同的对象属性; 如果有,则将所述相同的对象属性存储在对应的每条所述分记录中。4.根据权利要求1或2所述的方法,其特征在于,所述文件属性至少包括以下之一 生成所述PDF样例文件的软件类型属性、PDF版本属性、预分色属性、总页码属性、输出描述属性、加密属性、PDFX版本属性。5.根据权利要求1或3所述的方法,其特征在于,所述对象属性至少包括以下之一 注释内容属性、图像对象属性、渐变属性、路径属性、字体属性、字体内容属性、色彩空间类型属性、函数属性、透明属性、填充属性。6.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:张立业康怡暖孙雯文
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1