一种文档的压缩、解压方法和装置制造方法及图纸

技术编号:12890944 阅读:79 留言:0更新日期:2016-02-18 00:51
本发明专利技术实施例提供了一种文档的压缩方法和装置,该方法包括:提取预先存储的多个文档;从所述多个文档中查找内容相似的多个目标文档,每个目标文档中具有行号;根据所述行号对所述多个目标文档进行序列化,获得一个或多个数据块;将所述一个或多个数据块进行压缩处理,获得压缩对象。本发明专利技术实施例利用了网页本身的业务特性进行压缩,大大提高了压缩率,减少了存储空间的占用。

【技术实现步骤摘要】

本专利技术涉及计算机处理的
,特别是涉及一种文档的压缩方法、一种文档的解压方法、一种文档的压缩装置和一种文档的解压装置。
技术介绍
为了构建索引及更新索引,搜索引擎的网络爬虫(又称蜘蛛,Spider)每天都要从互联网抓取海量的网页,数量高达几十亿的级别。除了完全可以判别为垃圾的网页,蜘蛛每天抓取的大部分网页都会按照一定的格式存储在数据库中,这个数据库一般称为网页库。经过长时间的积累,网页库中存储了多达几千亿张网页,平均每张原始网页大小为30?50KB,几千亿张网页的总存储量十分之高。因此,一般在存储前都会对网页库中的网页进行压缩,采用的压缩算法有GZip,LZO, Zlib 等。但是,这些压缩算法都具有通用性,针对性较差,在压缩网页时,压缩率较低,占用较多的存储空间。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种文档的压缩方法、一种文档的解压方法和相应的一种文档的压缩装置、一种文档的解压装置。依据本专利技术的一个方面,提供了一种文档的压缩方法,包括:提取预先存储的多个文档;从所述多个文档中查找内容相似的多个目标文本文档来自技高网...

【技术保护点】
一种文档的压缩方法,包括:提取预先存储的多个文档;从所述多个文档中查找内容相似的多个目标文档,每个目标文档中具有行号;根据所述行号对所述多个目标文档进行序列化,获得一个或多个数据块;将所述一个或多个数据块进行压缩处理,获得压缩对象。

【技术特征摘要】

【专利技术属性】
技术研发人员:武志刚魏少俊
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1