【技术实现步骤摘要】
长短期用户画像生成方法、装置、设备及可读存储介质
本专利技术涉及大数据
,尤其涉及一种长短期用户画像生成方法、装置、设备及可读存储介质。
技术介绍
目前,随着移动互联网的迅猛发展,个性化系统成为众多企业应用大数据挖掘潜在商业价值的重要技术手段。用户兴趣画像作为一种抽象勾画目标用户的方法,具备精准、即时地分析用户行为、兴趣特征、消费行为的能力,因此受到越来越多企业的青睐。而用户画像系统通常是利用专业的用户标签体系来刻画。但现有用户画像系统主要采用离线处理的方式进行,不能保证实时性和即时地反馈。而近年来的实时系统通常采用传统的服务器方式开发部署,扩展性、容错性较差。一些实时的用户画像系统也没有基于目前领先的大数据处理技术,使得其不能高效的处理海量的用户日志数据及做一些复杂的运算以满足多变的市场的需求。实时的用户画像系统只能获取到用户当下、即时的兴趣标签,并不能有效的结合用户的历史行为,形成用户相对完整且准确的用户画像。如何提升用户画像的准确度,是目前本
亟待解决的技术问题。
技术实现思路
本专利技 ...
【技术保护点】
1.一种长短期用户画像生成方法,其特征在于,所述长短期用户画像生成方法包括:/n从广播变量中获取分布式存储系统Hbase信息,其中,所述分布式存储系统Hbase信息包括:列、列簇信息;/n根据用户编号拉取所述Hbase信息中的用户行为数据,并通过预置公式计算实时兴趣得分和历史兴趣得分,其中,所述用户行为数据包括:点击数据和购买数据;根据所述实时兴趣得分与用户兴趣标签之间的预置映射关系,以及历史兴趣得分与用户兴趣标签之间的预置映射关系,得到长短期用户兴趣标签;/n将所述长短期用户兴趣标签转为杰森json格式,通过信息摘要算法MD5对用户的敏感信息进行加密,存入预置存储系统,其 ...
【技术特征摘要】
1.一种长短期用户画像生成方法,其特征在于,所述长短期用户画像生成方法包括:
从广播变量中获取分布式存储系统Hbase信息,其中,所述分布式存储系统Hbase信息包括:列、列簇信息;
根据用户编号拉取所述Hbase信息中的用户行为数据,并通过预置公式计算实时兴趣得分和历史兴趣得分,其中,所述用户行为数据包括:点击数据和购买数据;根据所述实时兴趣得分与用户兴趣标签之间的预置映射关系,以及历史兴趣得分与用户兴趣标签之间的预置映射关系,得到长短期用户兴趣标签;
将所述长短期用户兴趣标签转为杰森json格式,通过信息摘要算法MD5对用户的敏感信息进行加密,存入预置存储系统,其中,所述预置存储系统包括键-值存储系统Redis和分布式存储系统Hbase;
根据获取到的指令从所述预置存储系统中获取与所述指令相对应的长短期用户兴趣标签,并基于所述长短期用户兴趣标签生成长短期用户画像。
2.如权利要求1所述的长短期用户画像生成方法,其特征在于,在所述从广播变量中获取分布式存储系统Hbase信息,其中,所述分布式存储系统Hbase信息包括:列、列簇信息之前,还包括:
通过流计算框架SparkStreaming程序创建SparkConf对象配置实例,以及将变更的数据加载到SparkConf对象,其中,所述SparkConf对象用于管理Spark的配置项,所述SparkStreaming包括驱动Driver端;
在驱动Driver端读取存储在分布式文件系统HDFS上的配置文件,其中,所述配置文件来自于开源流处理平台Kafka、分布式存储系统Hbase、键-值存储系统Redis端口和存储表名;
通过所述流计算框架SparkStreaming接收开源流处理平台卡夫卡Kafka的日志数据,形成Dstream格式的初始数据流,所述初始数据流分布于弹性分布式数据集的不同区域内;
对所述初始数据流进行预处理,得到目标数据流;
将所述目标数据流转化为事件Event类缓存至内存或硬盘,并将所述Event类转化为队列List存入分布式存储系统Hbase中间表。
3.如权利要求2所述的长短期用户画像生成方法,其特征在于,所述对所述初始数据流进行预处理,得到目标数据流,包括:
通过重新分区操作repartition中的HashPartitioner函数,对分布于弹性分布式数据集的第一划分区域的初始数据流进行重新划分区域,得到分布于第二划分区域的中间数据流,并记录所述第二划分区域的数量;
判断所述第二划分区域的数量是否大于所述第一划分区域的数量;
若所述第二划分区域的数量大于所述第一划分区域的数量,则得到目标数据流。
4.如权利要求2所述的长短期用户画像生成方法,其特征在于,所述通过流计算框架SparkStreaming程序创建SparkConf对象配置实例,以及将变更的数据加载到SparkConf对象,其中,所述SparkConf对象用于管理Spark的配置项,所述SparkStreaming包括驱动Driver端,包括:
通过流计算框架SparkStreaming程序创建SparkConf对象实例,通过广播变量将配置文件广播至各个工作节点,其中,所述工作节点包括:执行executor端的内存和硬盘;
判断所述内存的数据或所述硬盘的数据是否发生变更;
若所述内存的数据或所述硬盘的数据发生变更,则将变更的数据加载到SparkConf对象,其中,所述SparkConf对象用于管理Spark的配置项,所述SparkStreaming包括驱动Driver端。
5.如权利要求2所述的长短期用户画像生成方法,其特征在于,在所述通过流计算框架SparkStr...
【专利技术属性】
技术研发人员:于其位,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。