文本压缩的方法和装置制造方法及图纸

技术编号：21004190 阅读：27 留言：0更新日期：2019-04-30 21:33

本发明专利技术实施例提供一种文本压缩的方法和装置，能够针对现有技术中占用空间大、传输速度慢等问题，利用海量文本数据之间信息的冗余关系和大数据处理技术生成的高频编码库，以实现海量文本的高效存储和传输。该方法包括：为源文本生成类别标签；利用所述类别标签查找高频编码库中相应的类别编码库，所述高频编码库是指以高频文本块的编码数据形成的编码库，根据高频文本块所属类别的不同分为一个或多个类别编码库；利用所述类别编码库中的编码数据对所述源文本进行编码序列化，得到压缩后文本。

Method and Device of Text Compression

全部详细技术资料下载

【技术实现步骤摘要】
文本压缩的方法和装置
本专利技术涉及计算机
，尤其涉及一种文本压缩的方法和装置。
技术介绍
在文本存储和传输的过程中，通常情况下会存在由于文本信息的冗余和已知信息的重复等原因造成的占用空间大、传输速度慢的问题。以目前对电子商城内部存在的海量文本数据比如商品快照数据、订单数据、财务数据等和大量历史WEB网页等文本存储为例，这些庞然大物可能大部分采用直接存储或者传统压缩后存储，如此，会消耗大量的存储介质。因此，需要有效的文本压缩技术来避免文本存储或传输过程中空间资源的浪费。现有技术中，文本压缩技术由来已久，压缩算法也日趋成熟，例如常用的Huffman压缩、字典压缩、LZ77算法压缩、RLE算法等。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：一方面，传统的压缩算法都比较复杂，容易出错，对于海量数据压缩和解压缩都是个耗时耗力的活动；另一方面，大部分的压缩算法都是基于自身信息熵的冗余度进行压缩，在存储和压缩上并没有考虑到信息本身和已知信息的重复度。例如存储关于某个商品时，可能会有成千上万个商家都同时售卖此商品；又或者存储某热点新闻时，数据来源可能...

【技术保护点】
1.一种文本压缩的方法，其特征在于，包括：为源文本生成类别标签；利用所述类别标签查找高频编码库中相应的类别编码库，所述高频编码库是指以高频文本块的编码数据形成的编码库，根据高频文本块所属类别的不同分为一个或多个类别编码库；利用所述类别编码库中的编码数据对所述源文本进行编码序列化，得到压缩后文本。

【技术特征摘要】
1.一种文本压缩的方法，其特征在于，包括：为源文本生成类别标签；利用所述类别标签查找高频编码库中相应的类别编码库，所述高频编码库是指以高频文本块的编码数据形成的编码库，根据高频文本块所属类别的不同分为一个或多个类别编码库；利用所述类别编码库中的编码数据对所述源文本进行编码序列化，得到压缩后文本。2.根据权利要求1所述的方法，其特征在于，在为源文本生成类别标签之前，所述方法还包括：设置所述高频编码库。3.根据权利要求2所述的方法，其特征在于，设置所述高频编码库包括：将历史文本数据按照类别不同进行分类；检索各类别中历史文本数据的高频文本块；利用编码算法对所述高频文本块进行编码，生成编码数据；将所述高频文本块与对应的所述编码数据的对应关系保存至按类别进行维度区分的高频编码库中。4.根据权利要求3所述的方法，其特征在于，所述设置高频编码库还包括：按照预设补充标准，利用新增热点文本数据中的高频文本块对应的编码数据动态补充所述高频编码库。5.根据权利要求3或4所述的方法，其特征在于，所述编码算法为TF-IDF算法和/或LZW压缩算法。6.根据权利要求...

【专利技术属性】
技术研发人员：赵辉，杨丽敏，刘诏，薛韬，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人