在线实时用户画像生成方法技术

技术编号:18050190 阅读:25 留言:0更新日期:2018-05-26 08:09
本发明专利技术涉及一种在线实时用户画像生成方法,包括以下步骤:(1)对用户日志流数据化,形成流数据;(2)对流数据进行处理;(3)画像的热存储。本发明专利技术的优点是:很及时的跟踪用户行为变化,时效性强,能够及时捕捉用户偏好动态,调整相应的推荐效果。

【技术实现步骤摘要】
在线实时用户画像生成方法
本专利技术涉及一种在线实时用户画像生成方法。
技术介绍
用户画像的生成是用户个性化推荐系统的第一步,现有的用户画像生成系统,多是离线处理用户行为日志,定时产生或更新用户画像。这种画像产生方式,不能及时跟踪用户的偏好变化,推荐效果不能及时跟进,给用户的感觉不够敏感,现有的用户画像生成系统,多是离线处理用户行为日志,定时产生或更新用户画像。现有画像产生方式,不能及时跟踪用户的偏好变化,推荐效果不能及时跟进,给用户的感觉不够敏感。
技术实现思路
为克服现有技术的缺陷,本专利技术提供一种在线实时用户画像生成方法,本专利技术的技术方案是:在线实时用户画像生成方法,包括以下步骤:(1)对用户日志流数据化,形成流数据;(2)对流数据进行处理;(3)画像的热存储。所述的步骤(1)具体为:把收集的用户行为日志直接存入消息队列,即把原始的用户行为日志流数据化,包括以下步骤:a、实时读取日志文件产生的新数据;b、将日志文件解析,将每一条日志转化成包含所有预设字段的键值对;c、把键值对序列化成json格式,存入消息队列;所述的步骤(2)具体为:使用流计算模式,处理流程如下:1)日志数据校验,排除不包含有效行为的垃圾数据;有效行为包括点击,订阅和收藏;2)行为数据校验,检测行为日志的附带属性,排除不包含有效属性的日志;3)对历史画像提取并反序列化,从存储的消息队列中提取当前用户的历史画像,并将历史画像作为加载对象;具体为:a、从画像库中读取用户的历史画像数据;b、用读出的画像信息实例画一个新的画像对象;4)新行为日志更新;5)更新后的画像序列化入库。所述的步骤(3)具体为:采用了画像数据热存储的方式,即放入缓存,把画像数据同时备份的缓存中供计算使用。所述的新行为日志更新具体包括:a.根据历史画像的产生时间计算到此时的衰减系数,衰减系数计算方法如下:衰减系数=(当前时间-画像产生的时间)/半衰期,半衰期为180天;并对历史画像的属性值与衰减系数相乘进行衰减形成历史数据;b.过滤掉已经衰减至0.0125的属性值;c.根据日志时间与当前时间对需要更新的属性值进行衰减;方法同步骤a;d.更新的属性值叠加到a步骤处理的历史数据上,产出此时的新画像。本专利技术的优点是:很及时的跟踪用户行为变化,时效性强,能够及时捕捉用户偏好动态,调整相应的推荐效果。具体实施方式下面结合具体实施例来进一步描述本专利技术,本专利技术的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本专利技术的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本专利技术的精神和范围下可以对本专利技术技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本专利技术的保护范围内。本专利技术涉及一种在线实时用户画像生成方法,包括以下步骤:(1)对用户日志流数据化,形成流数据;(2)对流数据进行处理;(3)画像的热存储。所述的步骤(1)具体为:把收集的用户行为日志直接存入消息队列,即把原始的用户行为日志流数据化,包括以下步骤:a、实时读取日志文件产生的新数据;b、将日志文件解析,将每一条日志转化成包含所有预设字段的键值对;c、把键值对序列化成json格式,存入消息队列;所述的步骤(2)具体为:使用流计算模式,处理流程如下:1)日志数据校验,排除不包含有效行为的垃圾数据;有效行为包括点击,订阅和收藏;2)行为数据校验,检测行为日志的附带属性,排除不包含有效属性的日志;3)对历史画像提取并反序列化,从存储的消息队列中提取当前用户的历史画像,并将历史画像作为加载对象;具体为:a、从画像库中读取用户的历史画像数据;b、用读出的画像信息实例画一个新的画像对象;4)新行为日志更新;5)更新后的画像序列化入库。所述的步骤(3)具体为:采用了画像数据热存储的方式,即放入缓存,把画像数据同时备份的缓存中供计算使用。所述的新行为日志更新具体包括:a.根据历史画像的产生时间计算到此时的衰减系数,衰减系数计算方法如下:衰减系数=(当前时间-画像产生的时间)/半衰期,半衰期为180天;并对历史画像的属性值与衰减系数相乘进行衰减形成历史数据;b.过滤掉已经衰减至0.0125的属性值;c.根据日志时间与当前时间对需要更新的属性值进行衰减;方法同步骤a;d.更新的属性值叠加到a步骤处理的历史数据上,产出此时的新画像。本文档来自技高网...

【技术保护点】
在线实时用户画像生成方法,其特征在于,包括以下步骤:(1)对用户日志流数据化,形成流数据;(2)对流数据进行处理;(3)画像的热存储。

【技术特征摘要】
1.在线实时用户画像生成方法,其特征在于,包括以下步骤:(1)对用户日志流数据化,形成流数据;(2)对流数据进行处理;(3)画像的热存储。2.根据权利要求1所述的在线实时用户画像生成方法,其特征在于,所述的步骤(1)具体为:把收集的用户行为日志直接存入消息队列,即把原始的用户行为日志流数据化,包括以下步骤:a、实时读取日志文件产生的新数据;b、将日志文件解析,将每一条日志转化成包含所有预设字段的键值对;c、把键值对序列化成json格式,存入消息队列。3.根据权利要求1所述的在线实时用户画像生成方法,其特征在于,所述的步骤(2)具体为:使用流计算模式,处理流程如下:1)日志数据校验,排除不包含有效行为的垃圾数据;有效行为包括点击,订阅和收藏;2)行为数据校验,检测行为日志的附带属性,排除不包含有效属性的日志;3)对历史画像提取并反序列化,从存储的消息队列中提取当前用户的历史画像...

【专利技术属性】
技术研发人员:白峻峰张文战刘子曜苏伟杰
申请(专利权)人:北京诸葛找房信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1