【技术实现步骤摘要】
一种应用于搜索系统的数据淘汰方法和装置
本说明书涉及互联网领域,尤其涉及一种应用于搜索系统的数据淘汰方法和装置。
技术介绍
Es(ElasticSearch)是一种基于Lucene的搜索服务器,它提供了具有分布式多用户检索能力的搜索引擎。Es集群中会储存一定量的业务数据以备访问,举例说明:在反洗钱领域,用户业务数据以数据索引的形式存放在Es集群中,以备搜索使用。考虑到业务数据量和Es集群容量的限制,一般会定期淘汰Es集群中储存的旧数据,以便存储数据的新旧交替。传统的数据淘汰方案中,是按照时间维度定时淘汰掉过期的数据。例如,Es集群只允许存放一个月的业务数据,那么按照新老交替的淘汰算法,在本月1号时,则需要淘汰掉上个月1号的业务数据,以保证Es集群的容量健康和平衡。传统方案根据日期维度,将日期较前的数据进行淘汰和删除。在淘汰后,如果需要访问已被淘汰的业务数据,需要将数据从线下重新加载同步。传统淘汰方案的维度过于单一,没有结合实际的业务需求进行数据淘汰,在访问跨时间维度(已进入淘汰区间)和多主体客户连续访问时,很容易出现命中失败。必须重新加载已淘汰数据,增加了系统负载 ...
【技术保护点】
1.一种应用于搜索系统的数据淘汰方法,所述方法包括:获取业务数据的被访问信息,所述被访问信息至少包括业务数据的被访问时间信息,根据所述被访问信息计算并调整对应业务数据的活跃值;提取业务数据的时间字段,根据所述时间字段确定业务数据在搜索系统中的存在时长;利用预设的数据热度算法计算每条业务数据的热度分值,所述热度分值与业务数据的存在时长成反比,且与所述业务数据的活跃值成正比;将计算出业务数据的热度分值与预定义的淘汰阈值进行对比,将热度分值低于淘汰阈值的业务数据从搜索系统中删除。
【技术特征摘要】
1.一种应用于搜索系统的数据淘汰方法,所述方法包括:获取业务数据的被访问信息,所述被访问信息至少包括业务数据的被访问时间信息,根据所述被访问信息计算并调整对应业务数据的活跃值;提取业务数据的时间字段,根据所述时间字段确定业务数据在搜索系统中的存在时长;利用预设的数据热度算法计算每条业务数据的热度分值,所述热度分值与业务数据的存在时长成反比,且与所述业务数据的活跃值成正比;将计算出业务数据的热度分值与预定义的淘汰阈值进行对比,将热度分值低于淘汰阈值的业务数据从搜索系统中删除。2.根据权利要求1所述的方法,所述根据所述被访问信息计算并调整对应业务数据的活跃值,包括:根据业务数据的最新被访问时间信息,和预定周期内的被访问频率信息更新所述业务数据的活跃值。3.根据权利要求2所述的方法,所述获取业务数据的被访问信息,包括:监控业务数据并实时记录业务数据的被访问信息,当客户的业务数据被访问后,同时更新所述客户的关联客户的业务数据的活跃值。4.根据权利要求3所述的方法,所述同时更新所述客户的关联客户的业务数据的活跃值,包括:确定所述客户的关联客户,所述关联客户至少包括预设时间范围内,与所述客户发生过交易的其他客户;确定所述关联客户的关联交易,根据所述关联交易的关联程度确定并更新对应业务数据的活跃值。5.根据权利要求1所述的方法,所述淘汰阈值的更新方法,包括:确定搜索系统的最大承载容量和当前已用空间,根据所述最大承载容量和当前已用空间计算搜索系统的剩余可用空间;根据所述剩余可用空间动态更新淘汰阈值,使淘汰阈值与所述剩余可用空间成反比。6.一种应用于搜索系统的数据淘汰装置,所述装置包括:访问监控模块:用于获取业务数据的被访问信息,所述被访问信息...
【专利技术属性】
技术研发人员:刘一平,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。