数据处理方法、搜索方法及装置制造方法及图纸

技术编号:12101093 阅读:111 留言:0更新日期:2015-09-23 19:11
本发明专利技术提供了一种数据处理方法、搜索方法及装置,其中数据处理方法包括:计算原始数据中各词汇的压缩率,将所述原始数据中压缩率大于预设阈值的词汇进行压缩,生成高词频文件,所述高词频文件包括词汇及词汇在所述原始数据中的位置信息,从所述原始数据中删除压缩率大于预设阈值的词汇后,压缩所述原始数据生成非高词频文件,本发明专利技术实施例采用这样的数据处理方法,可以使得数据在存储时所占存储空间小,利于提高网络传输时的传输速度。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种数据处理方法、搜索方法及装置
技术介绍
目前,在诸如网络购物、信息检索和资讯网站等网络服务中,涉及到非常庞大的数 据(例如:文字)需要处理,传统的处理方式是直接将这些数据按照预定的格式进行编码,但 是此种方式存在的问题是经过编码的文件的数据量依旧十分的庞大,不利用后期应用(例 如:存储、传输等)。举例而言: 航天:又称空间飞行、太空飞行、宇宙航行或航天飞机。系指航天器在太空的航行 活动。有的科学家曾把航天器在太阳系内的航行活动称为航天,航天器在太阳系外的航行 活动称为航宇,现在则把航天器在太阳系内和太阳系外的航行活动统称为航天。航天活动 的目的是探索、开发和利用太空与天体,为人类服务。航天的基本条件是航天器必须达到足 够的速度,摆脱地球或太阳的引力。 此段文字共170个字(包括标点符号),假设将其以UTF-8 (8-bitUnicode TransformationFormat,万国码)格式存储(每个字占用3个字节),将生成占用510个字节 空间的压缩文件,其在存储时十分的占用存储空间,在传输时由于数据量大因此传输所需 时间长。 另外,若是在网络服务中应用传统的数据处理方式,将导致用户的体验度降低。以 搜索为例:传统的搜索方式中,原始数据是不经改变存储在本地文件系统当中的,这将耗费 较大的存储空间,特别是在分布式搜索中,搜索结果的数据量非常太,而需要花费长的网络 传输时间,导致搜索速度变慢。同时,传统的索引创建方式,其过程为:索引服务器接收到原 文数据后,首先创建索引,然后存储原文数据;当用户搜索到这个记录时又将原文数据从磁 盘上提取出来返回给用户,这样在磁盘的输入/输出和网络传输上很容易成为系统性能提 升的瓶颈,影响用户体验效果。
技术实现思路
有鉴于此,本专利技术提供了一种数据处理方法及装置,经过该方法或装置处理后的 数据,在存储时所占存储空间小,在网络传输时所需传输时间短。另外,本专利技术还提供了一 种数据搜索方法及装置,该数据搜索方法或装置,可以提高用户的网络服务体验。 本专利技术实施例提供了一种数据处理方法,用于将原始数据处理为高词频文件和非 高词频文件,包括: 计算原始数据中各词汇的压缩率; 将所述原始数据中压缩率大于预设阈值的词汇进行压缩,生成高词频文件,所述 高词频文件包括词汇及词汇在所述原始数据中的位置信息; 从所述原始数据中删除压缩率大于预设阈值的词汇后,压缩所述原始数据生成非 高词频文件。 优选的,所述计算原始数据中各词汇的压缩率,包括:根据各词汇在所述原始数 据中出现的次数、各词汇所含字数和编码原始数中一个字所需的字节数,计算各词汇的压 缩率,且该步骤具体包括:根据式,计算所述原始数 据中各词汇的压缩率,其中Co表示压缩率,W_F表示词汇在原始数据中出现的次数,W_L表 示词汇所含的字数,n为编码原始数据中一个字所需的字节数,f为压缩因子。 优选的,所述计算原始数据中各词汇的压缩率之前,还包括:根据原始数据所含字 数设置压缩因子f?的值,该步骤具体为:当所述原始数据所含字数小于等于256时,将f?的 值设置为1,当所述原始数据所含字数大于256且小于等于65536时,将所述f?的值设置为 2,当所述原始数据所含字数大于65536且小于等于16777216时,将所述f的值设置为3, 当所述原始数据所含字数大于16777216且小于等于42949677296时,将所述f?的值设置为 4。 优选的,在生成所述高词频文件和非高词频文件之后,所述方法还包括:将所述高 词频文件和非高词频文件发送至搜索服务器,由所述搜索服务器存储所述高词频文件和非 高词频文件,并根据所述高词频文件和非高词频文件创建用于搜索的索引。 本专利技术实施例还提供了一种数据搜索方法,包括: 接收用户通过访问客户端输入的搜索条件; 根据所述接收的搜索条件进行搜索,并根据搜索结果提取相应的高词频文件和非 高词频文件,所述高词频文件为对原始数据中压缩率大于预设阈值的词汇进行压缩后而生 成的文件,所述非高词频文件为从所述原始数据中删除压缩率大于预设阈值的词汇后,压 缩所述原始数据生成的文件; 将提取的高词频文件和非高词频文件发送至所述访问客户端,由所述访问客户端 根据所述提取的高词频文件和非高词频文件生成原始数据。 本专利技术实施例还提供了一种数据处理装置,用于对原始数据进行处理,生成高词 频文件和非高词频文件,包括: 计算模块,用于计算原始数据中各词汇的压缩率; 高词频文件生成模块,用于将所述原始数据中压缩率大于预设阈值的词汇进行压 缩,生成高词频文件,所述高词频文件包括词汇及词汇在所述原始数据中的位置信息; 非高词频文件生成模块,用于从所述原始数据中删除压缩率大于预设阈值的词汇 后,压缩所述原始数据生成非高词频文件; 优选的,所述计算模块,用于根据各词汇在所述原始数据中出现的次数、各词汇所 含字数和编码原始数中一个字所需的字节数,计算各词汇的压缩率,且具体用于:根据式:,计算所述原始数据中各词汇的压缩率,其中Co表 示压缩率,W_F表示词汇在原始数据中出现的次数,W_L表示词汇所含的字数,n为编码原始 数据中一个字所需的字节数,f为压缩因子。 优选的,数据处理装置还包括:设置模块,用于据原始数据所含字数设置压缩因子f的值,具体的用于:当所述原始数据所含字数小于等于256时,将f的值设置为1,当所述 原始数据所含字数大于256且小于等于65536时,将所述f?的值设置为2,当所述原始数据 所含字数大于65536且小于等于16777216时,将所述f?的值设置为3,当所述原始数据所含 字数大于16777216且小于等于42949677296时,将所述f的值设置为4。 优选的,数据处理装置还包括:发送模块,用于在生成所述高词频文件和非高词频 文件之后,将所述高词频文件和非高词频文件发送至搜索服务器,由所述搜索服务器存储 所述高词频文件和非高词频文件,并根据所述高词频文件和非高词频文件创建用于搜索的 索引。 本专利技术实施例还提供了一种数据搜索装置,包括: 接收模块,用于接收用户通过访问客户端输入的搜索条件; 处理模块,用于根据所述接收的搜索条件进行搜索,并根据搜索结果提取相应的 高词频文件和非高词频文件,所述高词频文件为对原始数据中压缩率大于预设阈值的词汇 进行压缩后而生成的文件,所述非高词频文件为从所述原始数据中删除压缩率大于预设阈 值的词汇后,压缩所述原始数据生成的文件; 发送模块,用于将提取的高词频文件和非高词频文件发送至所述访问客户端,由 所述访问客户端合并所述提取的高词频文件和非高词频文件生成原始数据。 本专利技术的有益效果: 本专利技术实施例的数据处理方法或装置,针对原始数据直接存储时存储数据量大、 不易于网络传输等问题,对原始数据计算各词汇的压缩率,然后将压缩率大于预设阈值的 词汇进行压缩生成高词频文件,并将压缩率大于预设阈值的词汇从原始数据中删除,生成 压缩的非高词频文件,经过这样的处理,在存储时所占存储空间小,因此在网络传输时传输 速度快。 本专利技术实施例的数据搜当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种数据处理方法,用于对原始数据进行处理,生成高词频文件和非高词频文件,其特征在于:包括:计算原始数据中各词汇的压缩率;将所述原始数据中压缩率大于预设阈值的词汇进行压缩,生成高词频文件,所述高词频文件包括词汇及词汇在所述原始数据中的位置信息;从所述原始数据中删除压缩率大于预设阈值的词汇后,压缩所述原始数据生成非高词频文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:王忻
申请(专利权)人:重庆新媒农信科技有限公司
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1