【技术实现步骤摘要】
一种基于Spark的推荐系统
本专利技术涉及一种推荐系统,具体涉及一种基于Spark的推荐系统。
技术介绍
随着互联网日新月异的发展,如今步入了数据大爆炸时代,动辄就有PB级数据量的产生,在海量的数据中人们往往对数据的选择无所适从,在这样的前提下我们急需一种能够智能、主动筛选数据的系统,帮助用户得到他们想要的东西,挖掘到他们可能感兴趣的需求数据。目前的系统大多基于传统的MapReduce技术实现,这种实现方式在Mapper输出和Reducer输入之间的数据混洗过程需要频繁的读写磁盘,这个过程非常耗时,直接制约了系统的整体性能;而且该种编程模型只提供map和reduce两种算子,编写引擎效率较低。海量数据存储基于普通文本文件,存储空间大、扫描和分析效率低。常用的推荐形式包括基于人口统计学推荐、基于SVD推荐、基于内容推荐,很多推荐系统只采取了其中的单一算法,推荐形式单一,无法通用。
技术实现思路
针对上述问题,本专利技术采用的技术方案是,一种基于Spark的推荐系统,包括以下步骤:步骤1:收集用户数据;所述收集数据可以是用户的键盘输入,也可以是用户产生的历史性数据、日志等,还有一类数据是用户的反馈信息,该类信息主要用于分析对引擎的改进;步骤2:对收集到的数据进行加工预处理;系统尽可能的对收集到的无效数据加以过滤,以降低后期离线、在线处理的时间消耗;步骤3:对加工数据进行持久化;所述持久化数据可能是刚收集的预处理后的数据,也可能是离线处理后的结果数据;< ...
【技术保护点】
1.一种基于Spark的推荐系统,特征在于,所述系统包括以下步骤:/n步骤1:收集用户数据;所述收集数据可以是用户的键盘输入,也可以是用户产生的历史性数据、日志等,还有一类数据是用户的反馈信息,该类信息主要用于分析对引擎的改进;/n步骤2:对收集到的数据进行加工预处理;系统尽可能的对收集到的无效数据加以过滤,以降低后期离线、在线处理的时间消耗;/n步骤3:对加工数据进行持久化;所述持久化数据可能是刚收集的预处理后的数据,也可能是离线处理后的结果数据;/n步骤4:评估模块分析数据,确定参与计算的引擎及其权重;/n步骤5:推荐引擎计算得出数据结果;所述数据结果有两种走向,一是直接返回给用户展示,二是作为中间结果存入数据仓库;所述推荐引擎来源于引擎维护模块,可以便捷的加入、移除。/n
【技术特征摘要】
1.一种基于Spark的推荐系统,特征在于,所述系统包括以下步骤:
步骤1:收集用户数据;所述收集数据可以是用户的键盘输入,也可以是用户产生的历史性数据、日志等,还有一类数据是用户的反馈信息,该类信息主要用于分析对引擎的改进;
步骤2:对收集到的数据进行加工预处理;系统尽可能的对收集到的无效数据加以过滤,以降低后期离线、在线处理的时间消...
【专利技术属性】
技术研发人员:傅涛,胡燕,郑秩,王力,王路路,徐杰,
申请(专利权)人:博智安全科技股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。