【技术实现步骤摘要】
基于流式数据处理的用户标签获取方法及装置
本专利技术涉及大数据的数据分析
,尤其涉及一种基于流式数据处理的用户标签获取方法、装置、计算机设备及存储介质。
技术介绍
用户兴趣挖掘是现今互联网用户端产品非常重要的基础技术手段,结合采集到的用户行为数据,运用不同的技术手段去表达用户信息以满足不同的产品需求,如广告投放、信息流推荐、小视频推荐等等,不同的技术实现方案对兴趣标签的准确性和时效性有不同侧重。传统的用户兴趣挖掘,更倾向于刻画出长期稳定的用户兴趣,而难以捕捉即时用户行为带来的兴趣变化。现阶段,业内出现同样有对用户兴趣的近实时刻画,但是缺乏对整体架构系统的设计,程序稳定性,数据一致性,计算性能等全方面考虑。
技术实现思路
本专利技术实施例提供了一种基于流式数据处理的用户标签获取方法、装置、计算机设备及存储介质,旨在解决现有技术中传统的用户兴趣挖掘,更倾向于刻画出长期稳定的用户兴趣,而难以捕捉即时用户行为带来的兴趣变化,导致分析结果准确率降低的问题。第一方面,本专利技术实施例提供了一种基于流式数据处理的用户标签获取方法,其包括:获取当前系统时间,判断所述当前系统时间是否满足标签离线更新流程启动条件;其中,所述标签离线更新流程启动条件对应一个标签离线更新流程启动时间点;若所述当前系统时间满足所述标签离线更新流程启动条件,获取Hive数据库中已存储的当前用户数据集;将根据所述当前用户数据集及调用对应的离线标签更新策略,计算得到与所述当前用户数据集中各用 ...
【技术保护点】
1.一种基于流式数据处理的用户标签获取方法,其特征在于,包括:/n获取当前系统时间,判断所述当前系统时间是否满足标签离线更新流程启动条件;其中,所述标签离线更新流程启动条件对应一个标签离线更新流程启动时间点;/n若所述当前系统时间满足所述标签离线更新流程启动条件,获取Hive数据库中已存储的当前用户数据集;/n根据所述当前用户数据集及调用对应的离线标签更新策略,计算得到与所述当前用户数据集中各用户分别对应的当前用户标签集,并获取和存储当前用户标签集对应的当前更新标识时间;/n将所述当前用户标签集存储至HBase数据库和/或Redis数据库;/n若所述当前系统时间不满足所述标签离线更新流程启动条件,消费Kafka平台中的实时用户数据集;以及/n根据所述实时用户数据集及调用对应的在线标签更新策略,得到与所述实时用户数据集中各用户分别对应的实时用户标签集,将所述实时用户标签集存储至HBase数据库。/n
【技术特征摘要】
1.一种基于流式数据处理的用户标签获取方法,其特征在于,包括:
获取当前系统时间,判断所述当前系统时间是否满足标签离线更新流程启动条件;其中,所述标签离线更新流程启动条件对应一个标签离线更新流程启动时间点;
若所述当前系统时间满足所述标签离线更新流程启动条件,获取Hive数据库中已存储的当前用户数据集;
根据所述当前用户数据集及调用对应的离线标签更新策略,计算得到与所述当前用户数据集中各用户分别对应的当前用户标签集,并获取和存储当前用户标签集对应的当前更新标识时间;
将所述当前用户标签集存储至HBase数据库和/或Redis数据库;
若所述当前系统时间不满足所述标签离线更新流程启动条件,消费Kafka平台中的实时用户数据集;以及
根据所述实时用户数据集及调用对应的在线标签更新策略,得到与所述实时用户数据集中各用户分别对应的实时用户标签集,将所述实时用户标签集存储至HBase数据库。
2.根据权利要求1所述的基于流式数据处理的用户标签获取方法,其特征在于,所述根据所述当前用户数据集及调用对应的离线标签更新策略,计算得到与所述当前用户数据集中各用户分别对应的当前用户标签集,并获取和存储当前用户标签集对应的当前更新标识时间,包括:
获取所述当前用户数据集中各用户分别对应的初始用户标签集;
根据所述离线标签更新策略中的第一离线标签更新子策略及所述初始用户数据集中各用户分别对应的初始用户标签集,计算获取每一个初始用户标签集中各标签对应的累计点击量产生标签得分;
其中,所述第一离线标签更新子策略对应公式为:
scoret,i(tagj)表示第t-1日的24小时内用户i对第j个标签的累计点击量产生标签得分;表示第t-1日的24小时内用户i对第j个标签的累计点击量;表示第t-1日的24小时内用户i对第j个标签的累计曝光次数;
根据离线标签更新策略中的第二离线标签更新子策略及所述初始用户数据集中各标签对应的累计点击量产生标签得分,计算获取每一个初始用户标签集中各标签对应的当日最终得分;
其中,所述第二离线标签更新子策略对应公式为:
score_newt,i(tagj)=score_newt-1,i(tagj)*factor+scoret,i(tagj),
score_newt,i(tagj)表示第t-1日的24小时内用户i对第j个标签的累计点击量产生标签得分与第t-2日的24小时内用户i对第j个标签的累计点击量产生标签得分相综合后的第t-1日的综合得分;score_newt-1,i(tagj)表示第t-2日的24小时内用户i对第j个标签的累计点击量产生标签得分与第t-3日的24小时内用户i对第j个标签的累计点击量产生标签得分相综合后的第t-2日的综合得分;factor表示衰减因子,且factor=e-(ln2)/day,day表示预设的衰减天数;
将每一个初始用户标签集中各标签按分别对应的当日最终得分进行降序排序,并根据各标签的排名值筛选获取排名值未超出预设的排名阈值的标签,组成各用户分别对应的当前用户标签集。
3.根据权利要求2所述的基于流式数据处理的用户标签获取方法,其特征在于,所述获取所述当前用户数据集中各用户分别对应的初始用户标签集,包括:
根据所述当前用户数据集中各条用户数据分别对应的用户唯一识别标签进行用户数据分组,将同一用户的用户数据划分在同一数据组内;
根据各用户对应数据组统计得到对应的初始用户标签集。
4.根据权利要求1所述的基于流式数据处理的用户标签获取方法,其特征在于,所述将所述当前用户标签集存储至HBase数据库和/或Redis数据库,包括:
将各用户对应的当前用户标签集分别按一列数据加入到HBase数据库中的中间数据表,且对应列的列名为当前系统时间对应的日期及其前一日日期组合组成。
5.根据权利要求1所述的基于流式数据处理的用户标签获取方法,其特征在于,所述将所述当前用户标签集存储至HBase数据库和/或Redis数据库,包括:
将各用户分别对应的当前用户标签集存储至Redis数据库中的结果表,或是将各用户分别对应的当前用户标签集存储至HBase数据库中的结...
【专利技术属性】
技术研发人员:江林章,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。