数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质技术方案

技术编号:24756722 阅读:57 留言:0更新日期:2020-07-04 09:17
本发明专利技术实施例提供了一种数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质,该方法包括:获取所述数据使用方发送的第一数据请求;根据预先确定的数据有效窗口的时长以及数据有效规则,判断所述第一数据请求所请求的第一目标数据是否需要更新,并在所述第一目标数据需要更新的情况下,对所述第一目标数据进行更新;其中,所述第一目标数据是所述候选数据池中存储的数据,所述数据有效规则包括至少一种对数据的特征的要求。因而,本发明专利技术方案,按需进行强制更新,则在进行数据更新时,并不会占据过多的计算资源,从而在一定程度上减少了更新数据库时所消耗的计算资源。

Data processing method and system, candidate data pool, electronic equipment and computer-readable storage medium

【技术实现步骤摘要】
数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质
本专利技术涉及计算机
,特别是涉及一种数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质。
技术介绍
在互联网行业中非常普遍和重要的推荐业务,都依赖一个候选数据池,其中,候选数据池提供可供推荐的数据,对接数据生产系统,对数据进行结构化,准入限制,清洗,退场等功能,并为机器学习,推荐引擎等下游模块提供数据服务。推荐候选数据池服务一般有这几方面的特点:第一方面,数据量大,一般会达到亿级,甚至百亿,千亿级;第二方面,更新要求低延迟,一般要求亚秒级延迟;数据准确性要求高,容错性强,对于脏数据有自动修复功能;第三方面,对业务变化适应性强,能够适应多种不同的业务形态。目前业界主流的候选数据池服务数据拓扑,采用的是Lambda架构。所谓lambda架构,即将大数据处理分为批量层、实时层和服务层。其中,批量层负责定时批量处理数据,即全库更新候选数据池;实时层负责实时处理数据,用于新物料实时入库,无效数据实时下线,标签特征实时更新等;服务层负责融本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,应用于包括候选数据池和数据使用方的系统,所述方法执行于所述候选数据池,所述方法包括:/n获取所述数据使用方发送的第一数据请求;/n根据预先确定的数据有效窗口的时长以及数据有效规则,判断所述第一数据请求所请求的第一目标数据是否需要更新,并在所述第一目标数据需要更新的情况下,对所述第一目标数据进行更新;/n其中,所述第一目标数据是所述候选数据池中存储的数据,所述数据有效规则包括至少一种对数据的特征的要求。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于包括候选数据池和数据使用方的系统,所述方法执行于所述候选数据池,所述方法包括:
获取所述数据使用方发送的第一数据请求;
根据预先确定的数据有效窗口的时长以及数据有效规则,判断所述第一数据请求所请求的第一目标数据是否需要更新,并在所述第一目标数据需要更新的情况下,对所述第一目标数据进行更新;
其中,所述第一目标数据是所述候选数据池中存储的数据,所述数据有效规则包括至少一种对数据的特征的要求。


2.根据权利要求1所述的数据处理方法,其特征在于,所述数据有效规则包括对数据内容的要求;
所述根据预先确定的数据有效窗口的时长以及数据有效规则,判断所述第一数据请求所请求的第一目标数据是否需要更新,并在所述第一目标数据需要更新的情况下,对所述第一目标数据进行更新,包括:
判断所述第一目标数据上一次更新的第一时刻,距离接收所述第一数据请求的第二时刻的第一时长,是否大于所述数据有效窗口的时长;
在所述第一时长大于所述数据有效窗口的时长的情况下,对所述第一目标数据进行更新;
在所述第一时长小于或等于所述数据有效窗口的时长的情况下,判断所述第一目标数据是否与所述数据有效规则相匹配;
在第一目标数据的数据内容与所述数据有效规则中对数据内容的要求不匹配的情况下,对所述第一目标数据进行更新。


3.根据权利要求2所述的数据处理方法,其特征在于,所述数据有效规则还包括对数据结构的要求;
在判断所述第一目标数据是否与所述数据有效规则相匹配之后,所述数据处理方法还包括:
在所述第一目标数据的数据结构与所述数据有效规则中对数据结构的要求不匹配的情况下,获取所述第二时刻之前第一预设时间内被请求的数据中数据结构发生变化的第二目标数据,并对所述第一目标数据和所述第二目标数据进行更新。


4.根据权利要求3所述的数据处理方法,其特征在于,所述第二目标数据包括至少一次第二数据请求所请求的数据;
所述对所述第一目标数据和所述第二目标数据进行更新,包括:
获取所述第一目标数据的第一生产方的数据传输接口的每秒查询率,以及每一次所述第二数据请求所请求的数据的第二生产方的数据传输接口的每秒查询率;
计算所述第一目标数据的大小与所述第一生产方的数据传输接口的每秒查询率的比值,以及,每一次所述第二数据请求所请求的数据的大小与对应的所述第二生产方的数据传输接口的每秒查询率的比值;
根据所述比值的大小,将所述第一目标数据的更新任务和所述至少一次第二数据请求所请求的数据的更新任务添加到不同的任务队列;
分别执行所述任务队列中的数据更新任务,其中,不同任务队列的任务并行处理,同一任务队列的任务按照在队列中的排序顺序执行。


5....

【专利技术属性】
技术研发人员:罗华林徐梦远贾滕阳杨光
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1