数据压缩的方法和装置制造方法及图纸

技术编号：7843424 阅读：219 留言：0更新日期：2012-10-13 01:46

本发明专利技术实施例提供了一种数据压缩方法和装置。方法包括：根据原始数据生成用于数据相似性检测的数字指纹；根据所述数字指纹确定与所述原始数据具有数据相似性的数据块，将所述原始数据路由到确定的数据块的压缩进程；执行所述确定的数据块的压缩进程，完成对所述原始数据的压缩。方法对应的装置包括：数字指纹生成器、数据路由模块、压缩模块和数据块。上述技术方案可以利用原始数据生成的数字指纹的相似性，将原始数据压缩到指定的数据块，从而提高数据压缩的压缩比。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及数据存储领域，并且更具体地，涉及数据压缩的方法和装置。
技术介绍
经过多年的系统建设和优化完善，电信领域经营分析系统已经建立了面向电信企业运营的数据信息平台。但是随着时间推移和加速增长的业务量，数据仓库中存储的数据加速膨胀，必须通过不断扩容满足存储要求，造成了数据仓库的成本高收益低，最终扩无可扩的局面。为应对上述挑战，电信行业数据仓库系统逐步引入了分级存储策略，根据数据创建时间、访问频率和访问时间的响应要求将数据按生命周期分为在线、近线、归档和销毁等级别。通过生命周期策略和分级存储策略的有机结合，将数据动态迁移或加载到最适合的存储介质中，达到各类存储的最佳搭配，以便控制信息技术(IT, Information Technology) 设备的投资规模，同时获得更好的效益。生命周期为近线级别的数据也称为近线数据。近线数据常用来完成历史数据对比分析、营销轨迹分析和数据挖掘等对电信领域经营分析具有重要意义的数据分析，其显著特点是数据量大，扫描范围广；以查询为主，但并发量小。近线数据采用数据压缩机制进行压缩既能提升存储利用率，又可提高数据分析效率。电信领域中的近线数据有以下适合压缩的特点I、属性值为特征串时，有固定的编码约定。字符串包括特征串。举例来说，国际移动装备辨识码(MEI，InternationalMobile Equipment Identity)或国际移动用户识别码(IMSI, International MobileSubscriber Identification number)是典型的特征串。对于特定运营商,特征串类型的属性值...

【技术保护点】

【技术特征摘要】
1.一种数据压缩的方法，其特征在于，包括根据原始数据生成用于数据相似性检测的数字指纹；根据所述数字指纹确定与所述原始数据具有数据相似性的数据块，将所述原始数据路由到确定的数据块的压缩进程；执行所述确定的数据块的压缩进程，完成对所述原始数据的压缩。2.根据权利要求I所述的方法，其特征在于，所述根据所述数字指纹确定与所述原始数据具有数据相似性的数据块，将所述原始数据路由到确定的数据块的压缩进程，具体包括获取数据块的数字指纹范围，将所述数字指纹与所述数据块的数字指纹范围进行比对，将所述数字指纹所落入的数字指纹范围对应的数据块确定为与所述原始数据具有数据相似性的数据块，并将所述数据指纹对应的所述原始数据路由到所述确定的数据块的压缩进程。3.根据权利要求2所述的方法，其特征在于，所述方法还包括当所述数字指纹不在任何数据块的数字指纹范围内，则新建压缩进程；并将所述原始数据路由到该新建的压缩进程，执行所述新建的压缩进程，完成对所述原始数据的压缩，生成新的数据块，并指定所述数字指纹为所述新建的数据块的主数字指纹。4.根据权利要求1-3任一所述的方法，其特征在于，所述数据块的数字指纹范围在确认要新建数据块时被设置，具体包括以原始数据生成的用于数据相似性检测的数字指纹作为主数字指纹；以所述主数字指纹作为中心，并以到所述中心的汉明距离作为所述新建数据块的数字指纹范围。5.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括获取所述数据块和/或数据块的压缩进程的即时状态，并根据所述即时状态和压缩策略确定是否新建数据块和/或新建压缩进程。6.根据权利要求5所述的方法，其特征在于，所述即时状态和压缩策略包括当前数据块的大小是否在压缩策略限定的范围内，如果到达限定的数据块大小范围，则新建数据块；当前数据块的压缩进程中排队等待完成压缩的原始数据个数是否超过压缩策略的阈值，如果超过所述阈值，则新建压缩进程。7.根据权利要求1-6任一所述的方法，其特征在于，所述根据原始数据生成用于数据相似性检测...

【专利技术属性】
技术研发人员：陈系华，张亮，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人