用户行为数据的处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号:19140453 阅读:21 留言:0更新日期:2018-10-13 08:43
本发明专利技术提供了一种用户行为数据的处理方法、装置及计算机可读存储介质,该方法包括:获取用户行为数据;将所述用户行为数据转化为kafka消息并进行缓存;采用spark streaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联;输出关联后的用户行为数据。由于spark streaming计算框架能够把流式计算转化为一批很小的、确定的批处理作业,能够对数据进行并行处理,所以能够实现秒级的大量数据的处理,进而能够对及时对用户行为数据进行处理及分析,感知用户兴趣。

User behavior data processing method, device and computer readable storage medium

The present invention provides a processing method, device and computer readable storage medium for user behavior data. The method includes: acquiring user behavior data; converting user behavior data into Kafka messages and caching them; and parallel processing of the Kafka messages with spark streaming computing framework to use the said method. User behavior data is associated; output associated user behavior data. Spark streaming computing framework can transform streaming computing into a batch of small, deterministic batch jobs, and can process data in parallel, so it can process a large number of seconds of data, and then can process and analyze user behavior data in time to perceive user interest.

【技术实现步骤摘要】
用户行为数据的处理方法、装置及计算机可读存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种用户行为数据的处理方法、装置及计算机可读存储介质。
技术介绍
用户行为分析是分析用户在使用网络资源时表现出来的规律、个性化的习惯。其目的在于收集、分析、预测用户行为。在互联网飞速发展的今天,对用户行为进行分析,提取用户兴趣,了解其特点,能够进行用户个性化定制与推送,为用户提供更加主动的,智能化的服务。在分析用户行为时需要对用户行为数据进行采集并处理。现有技术中对用户行为数据进行处理时一般采用小时级的批处理技术或流处理技术。小时级的批处理技术由于对数据的批处理技术延时性较高,无法满足实时性较高的业务。而流处理技术虽然能够实现亚秒级别时延的处理,但每次只能处理一条数据,使处理速度较慢。所以现有技术中采用小时级的批处理技术或流处理技术对用户行为数据进行处理,均不能及时对用户行为数据进行处理及分析,感知用户兴趣。
技术实现思路
本专利技术实施例提供一种用户行为数据的处理方法、装置及计算机可读存储介质,解决了现有技术中采用批处理技术或流处理技术对用户行为数据进行处理,均不能及时对用户行为数据进行处理及分析,感知用户兴趣的技术问题。本专利技术实施例提供一种用户行为数据的处理方法,包括:获取用户行为数据;将所述用户行为数据转化为kafka消息并进行缓存;采用sparkstreaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联;输出关联后的用户行为数据。进一步地,如上所述的方法,所述采用sparkstreaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联之前,还包括:采用direct接口获取所述kafka消息;将所述kafka消息转化为所述sparkstreaming计算框架中的数据格式。进一步地,如上所述的方法,所述采用sparkstreaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联之前,还包括:采用随机森林模型对sparkstreaming计算框架中的计算资源参数进行优化;将sparkstreaming计算框架中的计算资源参数设置为优化后的计算资源参数。进一步地,如上所述的方法,所述采用随机森林模型对sparkstreaming计算框架中的计算资源参数进行优化,具体包括:从日志分析文件中获取训练集样本和测试集样本;通过所述训练集样本对所述随机森林模型进行训练,并输出计算资源参数;通过所述测试集样本对所述计算资源参数进行验证;若所述计算资源参数通过验证,则确定所述计算资源参数为优化后的计算资源参数。进一步地,如上所述的方法,所述计算资源参数至少包括:批处理间隔时间,kafka消息拉取量,缓存反复使用的弹性分布式数据集个数,CPU资源数,主题分片数。本专利技术实施例提供一种用户行为数据的处理装置,包括:获取模块,用于获取用户行为数据;转化模块,用于将所述用户行为数据转化为kafka消息;缓存模块,用于将所述kafka消息进行缓存;处理模块,用于采用sparkstreaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联;输出模块,用于输出关联后的用户行为数据。进一步地,如上所述的装置,所述获取模块,还用于采用direct接口获取所述kafka消息;所述转化模块,还用于将所述kafka消息转化为所述sparkstreaming计算框架中的数据格式。进一步地,如上所述的装置,还包括:优化模块,用于采用随机森林模型对sparkstreaming计算框架中的计算资源参数进行优化;设置模块,用于将sparkstreaming计算框架中的计算资源参数设置为优化后的计算资源参数。进一步地,如上所述的装置,所述优化模块,具体用于:从日志分析文件中获取训练集样本和测试集样本;通过所述训练集样本对所述随机森林模型进行训练,并输出计算资源参数;通过所述测试集样本对所述计算资源参数进行验证;若所述计算资源参数通过验证,则确定所述计算资源参数为优化后的计算资源参数。进一步地,如上所述的装置,所述计算资源参数至少包括:批处理间隔时间,kafka消息拉取量,缓存反复使用的弹性分布式数据集个数,CPU资源数,主题分片数。本专利技术实施例提供一种用户行为数据的处理装置,包括:存储器,处理器以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上述任一项所述的方法。本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如上述任一项所述的方法。本专利技术实施例提供一种用户行为数据的处理方法、装置及计算机可读存储介质,通过获取用户行为数据;将所述用户行为数据转化为kafka消息并进行缓存;采用sparkstreaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联;输出关联后的用户行为数据。由于sparkstreaming计算框架能够把流式计算转化为一批很小的、确定的批处理作业,能够对数据进行并行处理,所以能够实现秒级的大量数据的处理,进而能够对及时对用户行为数据进行处理及分析,感知用户兴趣。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术用户行为数据的处理方法实施例一的流程图;图2为本专利技术用户行为数据的处理方法实施例二的流程图;图3为本专利技术用户行为数据的处理装置实施例一的结构示意图;图4为本专利技术用户行为数据的处理装置实施例二的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。为了清楚起见,首先说明本专利技术使用的特定词或短语的定义。sparkstreaming计算框架:sparkstreaming计算框架的原理是将流式计算转化为一批很小的,确定的批处理作业,以X秒为单位将数据切分成离散的作业,将每批数据看做弹性分布式数据集,使用弹性分布式数据集操作符进行处理,最终以弹性分布式数据集为单位返回。其将spark扩展为大规模流处理作业,可以扩展到本文档来自技高网...

【技术保护点】
1.一种用户行为数据的处理方法,其特征在于,包括:获取用户行为数据;将所述用户行为数据转化为kafka消息并进行缓存;采用spark streaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联;输出关联后的用户行为数据。

【技术特征摘要】
1.一种用户行为数据的处理方法,其特征在于,包括:获取用户行为数据;将所述用户行为数据转化为kafka消息并进行缓存;采用sparkstreaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联;输出关联后的用户行为数据。2.根据权利要求1所述的方法,其特征在于,所述采用sparkstreaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联之前,还包括:采用direct接口获取所述kafka消息;将所述kafka消息转化为所述sparkstreaming计算框架中的数据格式。3.根据权利要求1或2所述的方法,其特征在于,所述采用sparkstreaming计算框架对所述kafka消息进行并行处理,以将所述用户行为数据进行关联之前,还包括:采用随机森林模型对sparkstreaming计算框架中的计算资源参数进行优化;将sparkstreaming计算框架中的计算资源参数设置为优化后的计算资源参数。4.根据权利要求3所述的方法,其特征在于,所述采用随机森林模型对sparkstreaming计算框架中的计算资源参数进行优化,具体包括:从日志分析文件中获取训练集样本和测试集样本;通过所述训练集样本对所述随机森林模型进行训练,并输出计算资源参数;通过所述测试集样本对所述计算资源参数进行验证;若所述计算资源参数通过验证,则确定所述计算资源参数为优化后的计算资源参数。5.根据权利要求4所述的方法,其特征在于,所述计算资源参数至少包括:批处理间隔时间,kafka消息拉取量,缓存反复使用的弹性分布式数据集个数,CPU资源数,主题分片数。6.一种用户行为数据的处理装置,其特征在于,包括:获取模块,用于获取用户行为数据;转化模块...

【专利技术属性】
技术研发人员:许丹丹魏进武刘楠刘颖慧
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1