数据存储方法及装置制造方法及图纸

技术编号:14558146 阅读:41 留言:0更新日期:2017-02-05 12:36
本发明专利技术实施例提供了一种数据存储方法及装置。该数据存储方法,应用于服务器中,所述方法包括:获得已抓取的数据,对所述已抓取的数据建立索引;将所述已抓取的数据及所述索引保存在缓存中;判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。通过本方案能够实现数据检索所依据的相关数据的持久性,从而保证数据检索过程地有效进行。

Data storage method and device

The embodiment of the invention provides a data storage method and a device. The data storage method is applied to the server, the method includes: obtaining has grab the data, has been crawling indexing data; the capture data and has the index of the cache; to determine whether they meet the backup conditions, if met, the cache in the the capture data and the index stored to disk backup. Through this scheme, the data can be retrieved according to the persistence of the relevant data.

【技术实现步骤摘要】

本专利技术涉及数据检索
,特别是涉及数据存储方法及装置
技术介绍
为了提高检索效率,服务器通常会为数据检索所依据的数据建立索引,并将索引组织在一起,形成索引库,其中,为数据检索所依据的数据建立索引通常为从数据检索所依据的数据中提取一些信息作为索引。举例而言:对于一篇文档,所对应的索引为从该文档中提取的文字内容或者文档的属性参数,文档的属性参数可以为:作者姓名,文档类别,等等。现有技术中,为了保证数据检索效率,服务器通常在获得所抓取的数据后,为所抓取的数据建立索引,进而,将所抓取的数据和索引保存在缓存中,以便后续需要执行数据检索时,直接依据缓存中所存储的数据和索引来完成检索。其中,通常通过网络爬虫来在网络上抓取数据。但是,由于将所抓取的数据和索引保存在缓存中,这样会带来如下问题:当服务器发生断电或故障时,缓存中的相关数据会消失或存在异常,这样无疑会影响数据检索过程的有效进行。可见,如何实现数据检索所依据的相关数据的持久性是一个亟待解决的问题。
技术实现思路
本专利技术实施例的目的在于提供一种数据存储方法及装置,以实现数据检索所依据的相关数据的持久性。具体技术方案如下:第一方面,本专利技术实施例提供了一种数据存储方法,应用于服务器中,所述方法包括:获得已抓取的数据,对所述已抓取的数据建立索引;将所述已抓取的数据及所述索引保存在缓存中;判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。可选的,所述方法还包括:在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中。可选的,所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份,包括:对所述缓存中的已抓取的数据及所述索引进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;所述在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中,包括:在所述缓存中的所述已抓取的数据及所述索引消失后,对所述硬盘中保存的所述文件进行反序列化处理,得到所述已抓取的数据及所述索引,将得到的所述已抓取的数据及所述索引保存到所述缓存中。可选的,在所述获得已抓取的数据,对所述已抓取的数据建立索引之后,所述方法还包括:根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;所述将所述已抓取的数据及所述索引保存在缓存中,包括:将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中;所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份,包括:将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保存到硬盘中进行备份。可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:获得检索词及检索方信息;将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;将所述最终检索结果返回至检索方。可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:获得检索词及过滤条件;将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;将所述初始检索结果中对应的参数项的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余的已抓取的数据确定为最终检索结果;将所述最终检索结果返回至检索方。可选的,在将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:获得数据清理条件,根据所述数据清理条件确定所需清理的已抓取的数据对应的参数项的参数值;将对应所确定的参数项的参数值的已抓取的数据及索引清除。可选的,所述服务器的缓存中存储有第一索引库和第二索引库,所述将所述已抓取的数据及所述索引保存在缓存中,包括:对所述第一索引库进行更新,将所述已抓取的数据及所述索引更新到所述第一索引库中,在所述第一索引库进行更新时,使用所述第二索引库进行检索;在所述第一索引库更新完毕后,对所述第二索引库进行更新,将所述已抓取的数据及所述索引更新到所述第二索引库中。可选的,所述服务器的缓存中存储有至少一个索引库,所述将所述已抓取的数据及所述索引保存在缓存中,包括:生成包含所述已抓取的数据及所建立的索引的新索引库并将所述新索引库存储在所述缓存中;所述方法还包括:获得检索词,在所述缓存中存储的各索引库中查找与所述检索词匹配的索引;将查找到索引对应的已抓取的数据作为检索结果输出。可选的,所述服务器的缓存中存储有总索引库和分索引库,所述将所述已抓取的数据及所述索引保存在缓存中,包括:将所述已抓取的数据及建立的索引保存在所述分索引库中;所述方法还包括:获得检索词,在所述分索引库和所述总索引库中查找与所述检索词匹配的索引,如果查找到,则将查找到索引对应的已抓取的数据作为检索结果输出;判断所述分索引库是否满足入库条件,如果是,则将所述分索引库中的数据转移至所述总索引库中。第二方面,本专利技术实施例提供了一种数据存储装置,应用于服务器中,所述装置包括:索引建立模块、数据保存模块、备份判断模块和备份模块,所述索引建立模块,用于获得已抓取的数据,对所述已抓取的数据建立索引;所述数据保存模块,用于将所述已抓取的数据及所述索引保存在缓存中;所述备份判断模块,用于判断是否满足备份条件,如果满足,则触发所述备份模块;所述备份模块,用于将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。可选的,所述装置还包括:数据复制模块,用于在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份的所述已抓取的数据及所述索引复制到所述缓存中。可选的,所述备份模块,具体用于:对所述缓存中的已抓取的数据及所述索引进行序列化处理,将序列化处理后生成的文件保存到硬盘中进行备份;所述数据复制模块,具体用于:在所述缓存中的所述已抓取的数据及所述索引消失后,对所述硬盘本文档来自技高网...

【技术保护点】
一种数据存储方法,其特征在于,应用于服务器中,所述方法包括:获得已抓取的数据,对所述已抓取的数据建立索引;将所述已抓取的数据及所述索引保存在缓存中;判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备份。

【技术特征摘要】
1.一种数据存储方法,其特征在于,应用于服务器中,所述方法包括:
获得已抓取的数据,对所述已抓取的数据建立索引;
将所述已抓取的数据及所述索引保存在缓存中;
判断是否满足备份条件,如果满足,则将所述缓存中的所述已抓取的数据
及所述索引保存到硬盘中进行备份。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中备份
的所述已抓取的数据及所述索引复制到所述缓存中。
3.根据权利要求2所述的方法,其特征在于,
所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备
份,包括:对所述缓存中的已抓取的数据及所述索引进行序列化处理,将序列
化处理后生成的文件保存到硬盘中进行备份;
所述在所述缓存中的所述已抓取的数据及所述索引消失后,将所述硬盘中
备份的所述已抓取的数据及所述索引复制到所述缓存中,包括:在所述缓存中
的所述已抓取的数据及所述索引消失后,对所述硬盘中保存的所述文件进行反
序列化处理,得到所述已抓取的数据及所述索引,将得到的所述已抓取的数据
及所述索引保存到所述缓存中。
4.根据权利要求1至3中任一项所述的方法,其特征在于,在所述获得已
抓取的数据,对所述已抓取的数据建立索引之后,所述方法还包括:
根据预设的参数项及参数项的参数特征,在获得的已抓取的数据中查找所
述参数特征,根据查找结果确定所述已抓取的数据对应的参数项的参数值;
所述将所述已抓取的数据及所述索引保存在缓存中,包括:
将所述已抓取的数据、所述索引及确定的参数项的参数值对应保存在缓存
中;
所述将所述缓存中的所述已抓取的数据及所述索引保存到硬盘中进行备

\t份,包括:
将所述缓存中的所述已抓取的数据、所述索引及确定的参数项的参数值保
存到硬盘中进行备份。
5.根据权利要求4所述的方法,其特征在于,在将所述已抓取的数据、所
述索引及确定的参数项的参数值对应保存在缓存中之后,所述方法还包括:
获得检索词及检索方信息;
将与所述检索词匹配的索引对应的已抓取的数据确定为初始检索结果;
根据所述检索方信息确定过滤条件,将所述初始检索结果中对应的参数项
的参数值满足所述过滤条件的已抓取的数据去除,将所述初始检索结果中剩余
的已抓取的数据确定为最终检索结果;
将...

【专利技术属性】
技术研发人员:虞航仲
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1