构建用户实时画像的方法及装置制造方法及图纸

技术编号：10523862 阅读：204 留言：0更新日期：2014-10-08 20:24

本发明专利技术公开了一种构建用户实时画像的方法及装置，属于数据处理技术领域。方法包括：获取用户的日志信息；对日志信息进行过滤，得到日志信息的关键字段；提取关键字段的标签标识；根据标签标识及关键字段，获取当前标签信息；根据标签标识确定当前标签信息对应的全部兴趣类目；根据当前标签信息获取与每个兴趣类目相对应的用户兴趣度。本发明专利技术在对日志信息进行过滤，得到关键字段后，提取关键字段的标签标识，并根据标签标识及关键字段获取当前标签信息；进而在确定当前标签信息对应的兴趣类目后，获取与每个兴趣类目相对应的用户兴趣度，实现了在获取用户的一个日志信息后，便重新构建用户实时画像，从而可根据用户实时画像向用户推荐数据信息。

全部详细技术资料下载

【技术实现步骤摘要】
构建用户实时画像的方法及装置
本专利技术涉及数据处理
，特别涉及一种构建用户实时画像的方法及装置。
技术介绍
随着网络技术的快速发展，互联网已成为广大用户进行信息分享的平台，因此，互联网中充斥着海量数据信息。在这种情况下，用户往往湮没在低价值的海量数据信息中。所以如何向用户推荐用户感兴趣的数据信息，成为了一个技术难题。向用户推荐数据信息时所采用的关键技术之一为建立用户画像，所谓的用户画像，是将用户的行为属性(例如浏览、购买某商品的行为记录）和基础属性(例如性别、年龄等）聚合分析(例如分析用户对不同商品类别的兴趣度)，对用户进行建模，并基于用户画像为用户推荐数据信息。因此，如何构建用户画像，成为了本领域技术人员一个亟待解决的问题。在构建用户画像的过程中，一般基于Hadoop的批处理系统进行计算，通常采用如下两种方式：第一种方式，获取并存储用户的日志信息，直至存储的该用户的日志信息数量达到阈值后，根据存储的该用户的日志信息构建用户画像；第二种方式，获取并存储用户的日志信息，每隔预设周期根据存储的该用户的日志信息构建用户画像。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题：无论针对上述哪种构建用户画像的方式来说，均需等待一定时长后，才能构建用户画像，所以时效性较差，而且在根据构建的用户画像向用户推荐数据信息时精准度不高；另外，由于等待一定时长后，才构建用户画像，所以在构建用户画像时需进行日志信息的批量处理，导致处理过程耗时长、过程复杂且计算量大。
技术实现思路
...

【技术保护点】
一种构建用户实时画像的方法，其特征在于，所述方法包括：获取用户的日志信息；对所述日志信息进行过滤，得到所述日志信息的关键字段；提取所述关键字段的标签标识；根据所述标签标识及所述关键字段，获取当前标签信息，所述标签信息至少用于指示所述标签标识在所述日志信息的生成时间内的出现次数；根据所述标签标识，确定所述当前标签信息对应的全部兴趣类目；根据所述当前标签信息，获取与每个兴趣类目相对应的用户兴趣度；其中，所述关键字段至少包括用户标识、日志信息的生成时间、所述日志信息的数据源标识及产品标识。

【技术特征摘要】
1. 一种构建用户实时画像的方法，其特征在于，所述方法包括：获取用户的日志信息；对所述日志信息进行过滤，得到所述日志信息的关键字段；提取所述关键字段的标签标识；根据所述标签标识及所述关键字段，获取当前标签信息，所述标签信息至少用于指示所述标签标识在所述日志信息的生成时间内的出现次数；根据所述标签标识，确定所述当前标签信息对应的全部兴趣类目；根据所述当前标签信息，获取与每个兴趣类目相对应的用户兴趣度；其中，所述关键字段至少包括用户标识、日志信息的生成时间、所述日志信息的数据源标识及产品标识。2. 根据权利要求1所述的方法，其特征在于，所述提取所述关键字段的标签标识，包括：检测所述关键字段中是否包含行为类目标识；如果所述关键字段中包含行为类目标识，则将所述行为类目标识作为提取到的所述关键字段的标签标识。3. 根据权利要求2所述的方法，其特征在于，所述检测所述关键字段中是否包含行为类目标识之后，所述方法还包括：如果所述关键字段中未包含行为类目标识，则根据所述关键字段中的产品标识获取与所述产品标识相对应的产品标题，并根据所述产品标题提取所述关键字段的标签标识。4. 根据权利要求3所述的方法，其特征在于，所述根据所述产品标题提取所述关键字段的标签标识，包括：根据预设语法规则对所述产品标题进行分词处理，得到所述产品标题的多个分词结果；根据预设过滤条件对多个分词结果进行过滤分析，如果得到过滤结果，则将所述过滤结果提取为所述关键字段的标签标识。5. 根据权利要求1所述的方法，其特征在于，所述根据所述标签标识及所述关键字段，获取当前标签信息，包括：检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提取类型的标签信息；如果已存储的多个标签信息中包括所述标签标识和所述标签标识的提取类型，则将所述包括所述标签标识和所述标签标识的提取类型的标签信息确定为匹配标签信息，并确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设时间段中的一个相对应；如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段中的一个相对应，则对相对应的时间段中所述标签标识的出现次数进行更新。6. 根据权利要求5所述的方法，其特征在于，所述确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设时间段中的一个相对应之后，所述方法还包括：如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段均不对应，则根据所述标签标识对应的所述日志信息的生成时间创建一条单独的存储项，并统计所述标签标识在所述标签标识对应的日志信息的生成时间内的出现次数。7. 根据权利要求5所述的方法，其特征在于，所述检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提取类型的标签信息之后，所述方法还包括：如果已存储的所述用户的多个标签信息均不包括所述标签标识和所述标签标识的提取类型，则将所述用户标识及所述日志信息的数据源标识作为键，将所述标签标识、所述标签标识的提取类型及所述标签标识的出现次数作为值，进行键值存储，得到当前标签信息。8. 根据权利要求5至7中任一权利要求所述的方法，其特征在于，所述方法还包括：对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。9. 根据权利要求1所述的方法，其特征在于，所述根据所述当前标签信息，获取与每个兴趣类目相对应的用户兴趣度，包括：获取每个兴趣类目对应的多个历史标签信息；确定所述当前标签信息及所述多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子；根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子，获取与所述每个兴趣类目对应的所述用户兴趣度。10. 根据权利要求9所述的方法，其特征在于，所述根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子，应用下述公式，获取与所述每个兴趣类目对应的所述用户兴趣度，包括：其中，Score指代兴趣度，λ (i)为每个标签信息对应的数据源的权重值，w(j)为每个标签信息对应的兴趣类目的权重值，weakenFactor(t...

【专利技术属性】
技术研发人员：张文郁，洪坤乾，宋亚娟，杜冲，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人