冷热数据识别方法、装置、设备及存储介质制造方法及图纸

技术编号:39059197 阅读:15 留言:0更新日期:2023-10-12 19:52
本发明专利技术属于数据分析技术领域,公开了一种冷热数据识别方法、装置、设备及存储介质。该方法包括:基于用户数据,建立冷热数据识别模型,冷热数据识别模型按照日更新周期进行更新;基于冷热数据识别模型,确定冷数据与热数据;将热数据存储于预设内存数据库,并将冷数据存储于预设降级数据库;在接收到用户服务请求时,确定用户服务请求对应目标数据的数据冷热类型;根据数据冷热类型,确定目标数据库;在目标数据库中查询目标数据,并根据所述目标数据对所述用户服务请求进行响应。通过上述方式,建立冷热数据识别模型进行冷热数据的识别,并按日更新训练数据,数据持续保鲜,模型自动化训练,模型对冷热数据的识别保持高命中率。模型对冷热数据的识别保持高命中率。模型对冷热数据的识别保持高命中率。

【技术实现步骤摘要】
冷热数据识别方法、装置、设备及存储介质


[0001]本专利技术涉及数据分析
,尤其涉及一种冷热数据识别方法、装置、设备及存储介质。

技术介绍

[0002]随着线上业务的不断发展,手机APP作为企业面向客户的主要线上渠道,面向客户提供各种服务,这些服务需要计算引擎的支撑,而承载这些计算引擎所需的数据,如产品内容、服务信息等,基于响应效率的考虑,往往使用NOSQL内存数据库,如Redis、Memcached等,这些数据库会随着业务的发展存储不断扩大,而这些高性能的数据存储数据库,往往价格高昂。如何提高手机APP访问效率和响应时间,同时降低存储成本和应用管理复杂度,成为企业亟待解决的问题。冷热数据分离方案成为一个行之有效的方法,将数据分成冷库和热库,冷库存放不常使用的数据,热库存放经常变更和使用的数据。
[0003]常规的冷热数据分离方案中主要采用传统的统计方法对冷热数据进行识别,根据数据的特征和规律,通过统计分析的方式(采用平均值、中位数、方差等统计指标),识别出统计周期内数据中的异常值或热点数据作为热数据,或是通过专家规则,利用专家的知识和经验,对数据进行推理和判断,从而对热数据进行指定。然而,客户群体庞大,客户的变更也比较频繁,如果用传统的方法进行热数据的识别,会出现数据更新周期较长、热数据命中率低等问题。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供一种冷热数据识别方法、装置、设备及存储介质,旨在解决现有技术中传统的热数据识别方法数据更新周期较长且热数据命中率低的技术问题。
[0006]为实现上述目的,本专利技术提供了一种冷热数据识别方法,所述方法包括以下步骤:
[0007]基于用户数据,建立冷热数据识别模型,所述冷热数据识别模型按照日更新周期进行更新;
[0008]基于所述冷热数据识别模型,确定冷数据与热数据;
[0009]将所述热数据存储于预设内存数据库,并将所述冷数据存储于预设降级数据库;
[0010]在接收到用户服务请求时,确定所述用户服务请求对应目标数据的数据冷热类型;
[0011]根据所述数据冷热类型,确定目标数据库;
[0012]在所述目标数据库中查询所述目标数据,并根据所述目标数据对所述用户服务请求进行响应。
[0013]可选地,所述用户数据包括用户基础信息、用户行为数据以及用户曝光数据,所述基于用户数据,建立冷热数据识别模型,包括:
[0014]获取初始用户基础信息与初始用户行为数据,对所述初始用户基础信息与所述初始用户行为数据进行预处理,得到所述用户基础信息与所述用户行为数据,所述预处理至少包括降噪处理、空值填充以及类型转换;
[0015]根据所述用户基础信息、所述用户行为数据以及所述用户曝光数据,确定样本数据;
[0016]对所述用户基础信息与所述用户行为数据进行特征筛选,确定样本特征;
[0017]基于所述样本数据与所述样本特征,对预设二分类模型进行训练,得到所述冷热数据识别模型。
[0018]可选地,所述根据所述用户基础信息、所述用户行为数据以及所述用户曝光数据,确定样本数据,包括:
[0019]根据所述用户数据,确定用户标签,所述用户标签包括正标签与负标签;
[0020]根据正标签抽取比例,对具有所述正标签的用户数据进行分层抽样,得到正标签样本数据;
[0021]根据负标签抽取比例,对具有所述负标签的用户数据进行分层抽样,得到负标签样本数据;
[0022]根据随机种子,分别对所述正标签样本数据与所述负标签样本数据进行样本抽取,得到所述样本数据。
[0023]可选地,所述对所述用户基础信息与所述用户行为数据进行特征筛选,确定样本特征,包括:
[0024]根据预设需求,在所述用户基础信息与所述用户行为数据中确定初始样本特征;
[0025]根据所述用户标签,确定所述初始样本特征对应的正标签数据比例与负标签数据比例;
[0026]根据所述正标签数据比例与所述负标签数据比例,计算所述初始样本特征对应的证据权重;
[0027]根据所述证据权重以及证据权重与信息价值之间的对应关系,计算所述初始样本特征对应的信息价值;
[0028]根据信息价值阈值对所述初始样本特征进行筛选,确定所述样本特征,所述样本特征的信息价值大于所述信息价值阈值。
[0029]可选地,所述基于所述样本数据与所述样本特征,对预设二分类模型进行训练,得到所述冷热数据识别模型,包括:
[0030]根据预设划分比例,将所述样本数据划分为训练样本数据与验证样本数据;
[0031]将所述训练样本数据与所述样本特征输入所述预设二分类模型进行训练,得到初始冷热数据识别模型;
[0032]将所述验证样本数据输入所述初始冷热数据识别模型,得到预测输出;
[0033]根据所述预测输出,对所述初始冷热数据识别模型进行评估,得到评估结果;
[0034]在所述评估结果符合预设条件时,确定所述初始冷热数据识别模型为所述冷热数据识别模型。
[0035]可选地,所述冷热数据识别方法,包括:
[0036]根据所述日更新周期,获取更新用户数据;
[0037]基于所述更新用户数据与样本特征,对所述冷热客户识别模型进行训练,使得所述冷热客户识别模型得到更新;
[0038]根据更新的冷热客户识别模型,返回执行基于所述冷热数据识别模型,确定冷数据与热数据的步骤。
[0039]可选地,所述根据所述数据冷热类型,确定目标数据库,包括:
[0040]在所述目标数据的数据冷热类型为热数据类型时,确定所述目标数据库为所述预设内存数据库;
[0041]在所述目标数据的数据冷热类型为冷数据类型时,确定所述目标数据库为所述预设降级数据库。
[0042]此外,为实现上述目的,本专利技术还提出一种冷热数据识别装置,所述冷热数据识别装置包括:
[0043]模型建立模块,用于基于用户数据,建立冷热数据识别模型,所述冷热数据识别模型按照日更新周期进行更新;
[0044]所述数据识别模块,还用于基于所述冷热数据识别模型,确定冷数据与热数据;
[0045]数据分离模块,用于将所述热数据存储于预设内存数据库,并将所述冷数据存储于预设降级数据库;
[0046]服务响应模块,用于在接收到用户服务请求时,确定所述用户服务请求对应目标数据的数据冷热类型;
[0047]所述服务响应模块,还用于根据所述数据冷热类型,确定目标数据库;
[0048]所述服务响应模块,还用于在所述目标数据库中查询所述目标数据,并根据所述目标数据对所述用户服务请求进行响应。
[0049]此外,为实现上述目的,本专利技术还提出一种冷热数据识别设备,所述冷热数据识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种冷热数据识别方法,其特征在于,所述冷热数据识别方法,包括:基于用户数据,建立冷热数据识别模型,所述冷热数据识别模型按照日更新周期进行更新;基于所述冷热数据识别模型,确定冷数据与热数据;将所述热数据存储于预设内存数据库,并将所述冷数据存储于预设降级数据库;在接收到用户服务请求时,确定所述用户服务请求对应目标数据的数据冷热类型;根据所述数据冷热类型,确定目标数据库;在所述目标数据库中查询所述目标数据,并根据所述目标数据对所述用户服务请求进行响应。2.如权利要求1所述的方法,其特征在于,所述用户数据包括用户基础信息、用户行为数据以及用户曝光数据,所述基于用户数据,建立冷热数据识别模型,包括:获取初始用户基础信息与初始用户行为数据,对所述初始用户基础信息与所述初始用户行为数据进行预处理,得到所述用户基础信息与所述用户行为数据,所述预处理至少包括降噪处理、空值填充以及类型转换;根据所述用户基础信息、所述用户行为数据以及所述用户曝光数据,确定样本数据;对所述用户基础信息与所述用户行为数据进行特征筛选,确定样本特征;基于所述样本数据与所述样本特征,对预设二分类模型进行训练,得到所述冷热数据识别模型。3.如权利要求2所述的方法,其特征在于,所述根据所述用户基础信息、所述用户行为数据以及所述用户曝光数据,确定样本数据,包括:根据所述用户数据,确定用户标签,所述用户标签包括正标签与负标签;根据正标签抽取比例,对具有所述正标签的用户数据进行分层抽样,得到正标签样本数据;根据负标签抽取比例,对具有所述负标签的用户数据进行分层抽样,得到负标签样本数据;根据随机种子,分别对所述正标签样本数据与所述负标签样本数据进行样本抽取,得到所述样本数据。4.如权利要求3所述的方法,其特征在于,所述对所述用户基础信息与所述用户行为数据进行特征筛选,确定样本特征,包括:根据预设需求,在所述用户基础信息与所述用户行为数据中确定初始样本特征;根据所述用户标签,确定所述初始样本特征对应的正标签数据比例与负标签数据比例;根据所述正标签数据比例与所述负标签数据比例,计算所述初始样本特征对应的证据权重;根据所述证据权重以及证据权重与信息价值之间的对应关系,计算所述初始样本特征对应的信息价值;根据信息价值阈值对所述初始样本特征进行筛选,确定所述样本特征,所述样本特征的信息价值大于所述信息价值阈值。5.如权利要求2所述的方法,...

【专利技术属性】
技术研发人员:周阳晶庄校侨洪日伍世海
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1