一种数据存储方法、装置、设备及存储介质制造方法及图纸

技术编号:32830282 阅读:12 留言:0更新日期:2022-03-26 20:41
本发明专利技术实施例公开了一种数据存储方法,包括:获取待存储数据,确定待存储数据的数据状态;数据状态包括热状态和冷状态;若待存储数据为热状态,则将待存储数据存储到第一集群中,并建立热索引,将热索引存储到第三集群中;若待存储数据为冷状态,则将待存储数据存储到第二集群中,并建立冷索引,将冷索引存储到第三集群中。本发明专利技术实施例提供的数据存储方法,通过对待存储数据进行特征提取和数据分类,彻底地将冷热数据进行了分离,并在对冷热数据分别存储之后进一步校验,形成了具有反馈机制的控制过程,实现了冷热数据的替换和更新,从而可以实现海量数据的快速查询,在高并发情况下显著提高系统性能。显著提高系统性能。显著提高系统性能。

【技术实现步骤摘要】
一种数据存储方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数据存储方法、装置、设备及存储介质。

技术介绍

[0002]实现亿级商品数据的快速查询,对于提高电商系统高并发下的海量数据查询具有重要意义。目前电商系统大多采用基于内嵌式存储系统(Embedded Storage,ES)和Hbase相结合的查询方法,但ES面临解决的是海量数据的存储和检索问题,而海量的数据意味着需要大量的存储空间,若都使用固态硬盘(Solid State Disk或Solid State Drive,SSD)存储,成本因素大幅提高,因此制约许多企业和个人使用。
[0003]当前电商系统快速查询方法主要集中在以下几种:
[0004]第一,基于ES的查询方法,该方法在一定程度上解决了检索问题,但是随着数据量的大幅增加,并不能满足高并发情况下的快速查询;
[0005]第二,基于ES和HBase相结合的查询方法,该方法在一定程度上解决了海量数据的存储和检索等问题,但是未明确存入ES的热数据来源以及数据分析处理的有效方法,导致热数据准确率不高,不能得到具有较高价值的热数据,并且冷热数据都存储在Hbase,并未实现彻底地冷热数据分离;
[0006]第三,基于Redis和HBase相结合的查询方法,对冷热数据彻底进行了分离,近一步解决了海量数据的存储和检索等问题,但是冷热数据处理没有形成闭环,并且无反馈机制,导致冷热数据不能及时更新和替换。

技术实现思路

[0007]本专利技术实施例提供了一种数据存储方法、装置、设备及存储介质,实现了具有反馈机制的数据的冷热分离存储。
[0008]第一方面,本专利技术实施例提供了一种数据存储方法,包括:
[0009]获取待存储数据,确定待存储数据的数据状态;所述数据状态包括热状态和冷状态;
[0010]若所述待存储数据为热状态,则将所述待存储数据存储到第一集群中,并建立热索引,将所述热索引存储到第三集群中;
[0011]若所述待存储数据为冷状态,则将所述待存储数据存储到第二集群中,并建立冷索引,将所述冷索引存储到第三集群中。
[0012]进一步地,确定待存储数据的数据状态,包括:
[0013]采集所述待存储数据的第一特征数据;
[0014]利用设定算法对所述第一特征数据进行特征提取,得到所述待存储数据对应的第一特征值;
[0015]若所述第一特征值大于等于第一阈值,则确定所述待存储数据确定为热状态;若
所述第一特征值小于第一阈值,则确定所述待存储数据为冷状态。
[0016]进一步地,若所述待存储数据为热状态,则将所述待存储数据存储到第一集群中,并建立热索引,将所述热索引存储到第三集群中之后,还包括:
[0017]对热状态数据进行校验,根据校验结果更新所述热状态数据的存储位置及对应的索引。
[0018]进一步地,对热状态数据进行校验,根据校验结果更新所述热状态数据的存储位置及对应的索引,包括:
[0019]每隔设定时间,确定所述热状态数据中的转冷数据,将所述转冷数据存储到所述第二集群中,将所述转冷数据对应的索引更新为冷索引;
[0020]响应于第一预警器的告警信息,确定所述热状态数据中的可转移数据,将所述可转移数据存储到所述第二集群中,将所述可转移数据对应的索引更新为冷索引。
[0021]进一步地,确定所述热状态数据中的转冷数据,包括:
[0022]确定各所述热状态数据对应的特征值,将小于第二阈值的特征值确定为第二特征值;
[0023]将所述第二特征值对应的热状态数据确定为待校验数据,提取所述待校验数据对应的第二特征数据;
[0024]利用设定算法对所述第二特征数据进行特征提取,得到各所述待校验数据对应的目标特征值;
[0025]若所述目标特征值小于所述第一阈值,则将对应的待校验数据确定为所述转冷数据。
[0026]进一步地,确定所述热状态数据中的可转移数据,包括:
[0027]确定各所述热状态数据对应的特征值,并将小于所述第二阈值的特征值确定为所述第二特征值;
[0028]将所述第二特征值对应的热状态数据确定为所述可转移数据。
[0029]进一步地,若所述待存储数据为冷状态,则将所述待存储数据存储到第二集群中,并建立冷索引,将所述冷索引存储到第三集群中之后,还包括:
[0030]响应于第二预警器的告警信息,确定冷状态数据中的可压缩数据,并对所述可压缩数据进行列式存储压缩。
[0031]第二方面,本专利技术实施例还提供了一种数据存储装置,包括:
[0032]数据状态确定模块,用于获取待存储数据,确定待存储数据的数据状态;所述数据状态包括热状态和冷状态;
[0033]热状态数据存储模块,用于若所述待存储数据为热状态,则将所述待存储数据存储到第一集群中,并建立热索引,将所述热索引存储到第三集群中;
[0034]冷状态数据存储模块,用于若所述待存储数据为冷状态,则将所述待存储数据存储到第二集群中,并建立冷索引,将所述冷索引存储到第三集群中。
[0035]可选的,数据状态确定模块还用于:
[0036]采集所述待存储数据的第一特征数据;
[0037]利用设定算法对所述第一特征数据进行特征提取,得到所述待存储数据对应的第一特征值;
[0038]若所述第一特征值大于等于第一阈值,则确定所述待存储数据确定为热状态;若所述第一特征值小于第一阈值,则确定所述待存储数据为冷状态。
[0039]可选的,数据存储装置还包括热状态数据校验模块,用于对热状态数据进行校验,根据校验结果更新所述热状态数据的存储位置及对应的索引。
[0040]可选的,热状态数据校验模块还用于:
[0041]每隔设定时间,确定所述热状态数据中的转冷数据,将所述转冷数据存储到所述第二集群中,将所述转冷数据对应的索引更新为冷索引;
[0042]响应于第一预警器的告警信息,确定所述热状态数据中的可转移数据,将所述可转移数据存储到所述第二集群中,将所述可转移数据对应的索引更新为冷索引。
[0043]可选的,热状态数据校验模块还用于:
[0044]确定各所述热状态数据对应的特征值,将小于第二阈值的特征值确定为第二特征值;
[0045]将所述第二特征值对应的热状态数据确定为待校验数据,提取所述待校验数据对应的第二特征数据;
[0046]利用设定算法对所述第二特征数据进行特征提取,得到各所述待校验数据对应的目标特征值;
[0047]若所述目标特征值小于所述第一阈值,则将对应的待校验数据确定为所述转冷数据。
[0048]可选的,热状态数据校验模块还用于:
[0049]确定各所述热状态数据对应的特征值,并将小于所述第二阈值的特征值确定为所述第二特征值;
[0050]将所述第二特征值对应的热状态数据确定为所述可转移数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:获取待存储数据,确定待存储数据的数据状态;所述数据状态包括热状态和冷状态;若所述待存储数据为热状态,则将所述待存储数据存储到第一集群中,并建立热索引,将所述热索引存储到第三集群中;若所述待存储数据为冷状态,则将所述待存储数据存储到第二集群中,并建立冷索引,将所述冷索引存储到第三集群中。2.根据权利要求1所述的方法,其特征在于,确定待存储数据的数据状态,包括:采集所述待存储数据的第一特征数据;利用设定算法对所述第一特征数据进行特征提取,得到所述待存储数据对应的第一特征值;若所述第一特征值大于等于第一阈值,则确定所述待存储数据确定为热状态;若所述第一特征值小于第一阈值,则确定所述待存储数据为冷状态。3.根据权利要求1所述的方法,其特征在于,若所述待存储数据为热状态,则将所述待存储数据存储到第一集群中,并建立热索引,将所述热索引存储到第三集群中之后,还包括:对热状态数据进行校验,根据校验结果更新所述热状态数据的存储位置及对应的索引。4.根据权利要求3所述的方法,其特征在于,对热状态数据进行校验,根据校验结果更新所述热状态数据的存储位置及对应的索引,包括:每隔设定时间,确定所述热状态数据中的转冷数据,将所述转冷数据存储到所述第二集群中,将所述转冷数据对应的索引更新为冷索引;响应于第一预警器的告警信息,确定所述热状态数据中的可转移数据,将所述可转移数据存储到所述第二集群中,将所述可转移数据对应的索引更新为冷索引。5.根据权利要求1

4所述的方法,其特征在于,确定所述热状态数据中的转冷数据,包括:确定各所述热状态数据对应的特征值,将小于第二阈值的特征值确定为第二特征值;将所述第二特征值对...

【专利技术属性】
技术研发人员:窦立祥史湘君李娟张曼曼刘新志魏思捷
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1