数据存储方法及装置制造方法及图纸

技术编号:14563625 阅读:32 留言:0更新日期:2017-02-05 20:33
本发明专利技术实施例提供的一种数据存储方法及装置,应用于服务器中,所述方法包括:获得已抓取的数据,对所述已抓取的数据建立索引;根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。可见,与现有技术相比,本方案不但将已抓取的数据、索引保存在缓存汇总,同时将已抓取的数据对应的参数项的参数值对应保存在缓存中,能丰富数据检索所依据的相关数据,从而保证后续满足差异化的检索需求。

【技术实现步骤摘要】

本专利技术涉及数据检索
,特别是涉及数据存储方法及装置
技术介绍
为了提高检索效率,服务器通常会为数据检索所依据的数据建立索引,并将索引组织在一起,形成索引库,其中,为数据检索所依据的数据建立索引通常为:从数据检索所依据的数据中提取一些信息作为索引。举例而言:对于一篇文档,所对应的索引为从该文档中提取的文字内容或者文档的属性参数,文档的属性参数可以为:作者姓名,文档类别,等等。现有技术中,服务器通常在获得所抓取的数据后,为所抓取的数据建立索引,进而,将所抓取的数据和索引保存至缓存中;进而,在需要执行数据检索时,基于检索方所提供的检索词,将与该检索词匹配的索引对应的已抓取的数据确定为检索结果,反馈给检索方。其中,通常通过网络爬虫来在网络上抓取数据。但是,由于服务器所存储的数据检索过程所依据的相关数据为:所抓取的数据以及所建立的索引,这样,当对于同一个检索词而言,检索方存在差异化需求时,服务器将无法满足检索需求。
技术实现思路
本专利技术实施例的目的在于提供一种数据存储方法及装置,以丰富数据检索所依据的相关数据,从而保证后续满足差异化的检索需求。具体技术方案如下:第一方面,本专利技术实施例提供了一种数据存储方法,应用于服务器中,所述方法包括:获得已抓取的数据,对所述已抓取的数据建立索引;根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:获得检索词及检索方信息;将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;将所述最终检索结果返回至检索方。可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:获得检索词及过滤条件;将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;将所述最终检索结果返回至检索方。可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;将对应所确定的参数项的参数值的已抓取的数据及索引清除。可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。可选的,所述方法还包括:在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中。可选的,所述将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份,包括:对所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;所述在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参数值复制到所述缓存中,包括:在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据、所述索引及确定的参数项的参数值,将得到的所述已抓取的数据、所述索引及确定的参数项的参数值保存到所述缓存中。可选的,所述服务器的缓存中存储有第一索引库和第二索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,包括:对所述第一索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据、所述索引及确定的参数项的参数值更新到所述第二索引库中。可选的,所述服务器的缓存中存储有至少一个索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,包括:生成包含所述已抓取的数据、所述索引及确定的参数项的参数值的新索引库并将所述新索引库存储在所述缓存中;所述方法还包括:获得检索词及检索方信息;将各个索引库中与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;将所述最终检索结果返回至检索方。可选的,所述服务器的缓存中存储有总索引库和分索引库,所述将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中,包括:将所述已抓取的数据、所述索引及确定的参数项的参数值保存在所述分索引库中;所述方法还包括:获得检索词及检索方信息;在分索引库和总索引库中确定与所述检索词匹配的索引对应的已抓取的数据;根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;将所述最终检索结果返回至检索方;并且,判断所述分索引库是否满足入库条件,如果是,则将所述分索引库中的数据转移至所述总索引库中。第二方面,本专利技术实施例提供了一种数据存储装置,应用于服务器中,所述装置包括:索引建立模块、第一参数值确定模块和数据保存模块,所述索引建立模块,用于获得已抓取的数据,对所述已抓取的数据建立索引;所述第一参数值确定模块,根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定本文档来自技高网...

【技术保护点】
一种数据存储方法,其特征在于,应用于服务器中,所述方法包括:获得已抓取的数据,对所述已抓取的数据建立索引;根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中。

【技术特征摘要】
1.一种数据存储方法,其特征在于,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所
述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存
中。
2.根据权利要求1所述的方法,其特征在于,在将所述已抓取的数据、所
述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及检索方信息;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项
的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余
的已抓取的数据确定为最终检索结果;
将所述最终检索结果返回至检索方。
3.根据权利要求1所述的方法,其特征在于,在将所述已抓取的数据、所
述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及过滤条件;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓
取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结
果;
将所述最终检索结果返回至检索方。
4.根据权利要求1所述的方法,其特征在于,在将所述已抓取的数据、所
述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据

\t对应的参数项的参数值;
将对应所确定的参数项的参数值的已抓取的数据及索引清除。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在将所述已抓
取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方
法还包括:
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据、
所述索引及确定的参数项的参数值保存到硬盘中进行备份。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值消
失后,将所述硬盘中备份的所述已抓取的数据、所述索引及确定的参数项的参
数值复制到所述缓存中。
7.根据权利要求6所述的方法,其特征在于,
所述将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数
值保存到硬盘中进行备份,包括:对所...

【专利技术属性】
技术研发人员:虞航仲
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1