用户行为数据的处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号：19140453 阅读：21 留言：0更新日期：2018-10-13 08:43

本发明专利技术提供了一种用户行为数据的处理方法、装置及计算机可读存储介质，该方法包括：获取用户行为数据；将所述用户行为数据转化为kafka消息并进行缓存；采用spark streaming计算框架对所述kafka消息进行并行处理，以将所述用户行为数据进行关联；输出关联后的用户行为数据。由于spark streaming计算框架能够把流式计算转化为一批很小的、确定的批处理作业，能够对数据进行并行处理，所以能够实现秒级的大量数据的处理，进而能够对及时对用户行为数据进行处理及分析，感知用户兴趣。

User behavior data processing method, device and computer readable storage medium

The present invention provides a processing method, device and computer readable storage medium for user behavior data. The method includes: acquiring user behavior data; converting user behavior data into Kafka messages and caching them; and parallel processing of the Kafka messages with spark streaming computing framework to use the said method. User behavior data is associated; output associated user behavior data. Spark streaming computing framework can transform streaming computing into a batch of small, deterministic batch jobs, and can process data in parallel, so it can process a large number of seconds of data, and then can process and analyze user behavior data in time to perceive user interest.

全部详细技术资料下载

【技术实现步骤摘要】
用户行为数据的处理方法、装置及计算机可读存储介质
本专利技术实施例涉及数据处理
，尤其涉及一种用户行为数据的处理方法、装置及计算机可读存储介质。
技术介绍
用户行为分析是分析用户在使用网络资源时表现出来的规律、个性化的习惯。其目的在于收集、分析、预测用户行为。在互联网飞速发展的今天，对用户行为进行分析，提取用户兴趣，了解其特点，能够进行用户个性化定制与推送，为用户提供更加主动的，智能化的服务。在分析用户行为时需要对用户行为数据进行采集并处理。现有技术中对用户行为数据进行处理时一般采用小时级的批处理技术或流处理技术。小时级的批处理技术由于对数据的批处理技术延时性较高，无法满足实时性较高的业务。而流处理技术虽然能够实现亚秒级别时延的处理，但每次只能处理一条数据，使处理速度较慢。所以现有技术中采用小时级的批处理技术或流处理技术对用户行为数据进行处理，均不能及时对用户行为数据进行处理及分析，感知用户兴趣。
技术实现思路
本专利技术实施例提供一种用户行为数据的处理方法、装置及计算机可读存储介质，解决了现有技术中采用批处理技术或流处理技术对用户行为数据进行处理，均不能及时对用户行为数据进行处理及分析，感知用户兴趣的技术问题。本专利技术实施例提供一种用户行为数据的处理方法，包括：获取用户行为数据；将所述用户行为数据转化为kafka消息并进行缓存；采用sparkstreaming计算框架对所述kafka消息进行并行处理，以将所述用户行为数据进行关联；输出关联后的用户行为数据。进一步地，如上所述的方法，所述采用sparkstreaming计算框架对所述kafka消息进行并...

【技术保护点】
1.一种用户行为数据的处理方法，其特征在于，包括：获取用户行为数据；将所述用户行为数据转化为kafka消息并进行缓存；采用spark streaming计算框架对所述kafka消息进行并行处理，以将所述用户行为数据进行关联；输出关联后的用户行为数据。

【技术特征摘要】
1.一种用户行为数据的处理方法，其特征在于，包括：获取用户行为数据；将所述用户行为数据转化为kafka消息并进行缓存；采用sparkstreaming计算框架对所述kafka消息进行并行处理，以将所述用户行为数据进行关联；输出关联后的用户行为数据。2.根据权利要求1所述的方法，其特征在于，所述采用sparkstreaming计算框架对所述kafka消息进行并行处理，以将所述用户行为数据进行关联之前，还包括：采用direct接口获取所述kafka消息；将所述kafka消息转化为所述sparkstreaming计算框架中的数据格式。3.根据权利要求1或2所述的方法，其特征在于，所述采用sparkstreaming计算框架对所述kafka消息进行并行处理，以将所述用户行为数据进行关联之前，还包括：采用随机森林模型对sparkstreaming计算框架中的计算资源参数进行优化；将sparkstreaming计算框架中的计算资源参数设置为优化后的计算资源参数。4.根据权利要求3所述的方法，其特征在于，所述采用随机森林模型对sparkstreaming计算框架中的计算资源参数进行优化，具体包括：从日志分析文件中获取训练集样本和测试集样本；通过所述训练集样本对所述随机森林模型进行训练，并输出计算资源参数；通过所述测试集样本对所述计算资源参数进行验证；若所述计算资源参数通过验证，则确定所述计算资源参数为优化后的计算资源参数。5.根据权利要求4所述的方法，其特征在于，所述计算资源参数至少包括：批处理间隔时间，kafka消息拉取量，缓存反复使用的弹性分布式数据集个数，CPU资源数，主题分片数。6.一种用户行为数据的处理装置，其特征在于，包括：获取模块，用于获取用户行为数据；转化模块...

【专利技术属性】
技术研发人员：许丹丹，魏进武，刘楠，刘颖慧，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人