基于RoaringBitmap的人群画像圈选方法技术

技术编号:39163910 阅读:25 留言:0更新日期:2023-10-23 15:03
本发明专利技术公开了一种基于RoaringBitmap的人群圈选方法,步骤包括:将每日历史全量用户进行id

【技术实现步骤摘要】
基于RoaringBitmap的人群画像圈选方法


[0001]本专利技术属于移动互联网
,尤其涉及基于RoaringBitmap的人群画像圈选方法。

技术介绍

[0002]随着用户数据维度和数据量级的增长,用户运营朝着精细化方向的发展高效准确的人群圈选越来越重要。
[0003]常规标签的存储方式通常是以大宽表的形式存在于分布式数据库表中,由于数据量级大,会出现各标签明细数据占用存储资源相当大的问题。
[0004]人群标签圈选方式通常为大宽表各运算逻辑进行全文检索匹配方式,虽然为分布式多任务的方式,但是对于超大数量级情况下,整个执行过程耗时非常长,且消耗机器资源多。对于人群预估这种需要秒级内给出计算结果的交互来说体验非常差。
[0005]当每日定时进行人群调度更新时,由于单个圈选流程就非常消耗资源且耗时长,当成千上万个圈选任务同时调度时,会出现机器资源异常紧张且等待的情况,整个人群更新会出现等待排队的情况,不利于快速进行所有人群调度更新。

技术实现思路

[0006]针对以上存在的问题,本专利技术提供一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于RoaringBitmap的人群画像圈选方法,其特征在于,包括以下步骤:聚合数据仓库中原始业务数据的标签,构建原始业务数据的大宽表;根据上游的多业务数据表,将数据按照多维度多口径进行用户行为、访问、浏览、交易、区域、性别、偏好、以及各业务口径的统计数据整理成标签化的tags表数据,并与id

map进行关联,进行定时的数据调度build;以标签+标签值对数据进行分组,将tsid生成bitmap,进行标签数据的bitmap构建;每日调度构建成新bitmap表后,进行新老表的平滑切换;每日调度根据当日新用户与存量用户的聚合,给每个用户生成一个整数的tsid,然后生成全量的用户id

map表,tsid用于进行bitmap的生成;通过用户选择的多标签多运算池多运算逻辑进行标签执行语法的解析,基于标签运算逻辑交/并来选择rb_and_agg/rb_or_agg函数,然后根据运算出来的RoaringBitmap使用函数rb_cardinality统计总数;通过标签解析和rb_and_agg/rb_or_agg函数聚合运算,然后通过rb_iterate函数关联id

map,得到用户id然后写入文件生成人群数据。2.根据权利要求1所述的基于RoaringBitmap的人群画像圈选方法,其特征在于,RoaringBitmap数据构建流程还包括:进行每日调度,将存量用户数据与前一日新增用户进行并集聚合,为每个用户生成tsid,用来唯一标识该用户,用来进行bitmap计算,然后关联其他id和用户信息,生成id

map表,所述id...

【专利技术属性】
技术研发人员:吴向南何一波黄骞鲁心可徐兴
申请(专利权)人:湖南兴盛优选网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1