一种基于Spark的推荐系统技术方案

技术编号：24091810 阅读：57 留言：0更新日期：2020-05-09 08:25

本发明专利技术公开一种基于Spark的推荐系统，通过分析用户的基本数据、行为数据，智能的向用户展示他们可能需要的东西，通过融入Spark编程模型，充分使用集群机器内存，基于内存高效迭代计算，大幅减少离线、在线计算时间。实现了一种混合推荐模型，该模型可统一多种推荐引擎的结果，根据用户的选择动态调整各个推荐引擎的权重，从而使得推荐结果更加个性化。选用HDFS及Parquet方式实现数据仓库的高性能，基于SparkSQL对数据进行查询，能够满足海量数据。

A recommendation system based on spark

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark的推荐系统
本专利技术涉及一种推荐系统，具体涉及一种基于Spark的推荐系统。
技术介绍
随着互联网日新月异的发展，如今步入了数据大爆炸时代，动辄就有PB级数据量的产生，在海量的数据中人们往往对数据的选择无所适从，在这样的前提下我们急需一种能够智能、主动筛选数据的系统，帮助用户得到他们想要的东西，挖掘到他们可能感兴趣的需求数据。目前的系统大多基于传统的MapReduce技术实现，这种实现方式在Mapper输出和Reducer输入之间的数据混洗过程需要频繁的读写磁盘，这个过程非常耗时，直接制约了系统的整体性能；而且该种编程模型只提供map和reduce两种算子，编写引擎效率较低。海量数据存储基于普通文本文件，存储空间大、扫描和分析效率低。常用的推荐形式包括基于人口统计学推荐、基于SVD推荐、基于内容推荐，很多推荐系统只采取了其中的单一算法，推荐形式单一，无法通用。
技术实现思路
针对上述问题，本专利技术采用的技术方案是，一种基于Spark的推荐系统，包括以下步骤：步骤1：收集用户数据；所述收集数据可以是用户的键盘输入，也可以是用户产生的历史性数据、日志等，还有一类数据是用户的反馈信息，该类信息主要用于分析对引擎的改进；步骤2：对收集到的数据进行加工预处理；系统尽可能的对收集到的无效数据加以过滤，以降低后期离线、在线处理的时间消耗；步骤3：对加工数据进行持久化；所述持久化数据可能是刚收集的预处理后的数据，也可能是离线处理后的结果数据；<...

【技术保护点】
1.一种基于Spark的推荐系统，特征在于，所述系统包括以下步骤：/n步骤1：收集用户数据；所述收集数据可以是用户的键盘输入，也可以是用户产生的历史性数据、日志等，还有一类数据是用户的反馈信息，该类信息主要用于分析对引擎的改进；/n步骤2：对收集到的数据进行加工预处理；系统尽可能的对收集到的无效数据加以过滤，以降低后期离线、在线处理的时间消耗；/n步骤3：对加工数据进行持久化；所述持久化数据可能是刚收集的预处理后的数据，也可能是离线处理后的结果数据；/n步骤4：评估模块分析数据，确定参与计算的引擎及其权重；/n步骤5：推荐引擎计算得出数据结果；所述数据结果有两种走向，一是直接返回给用户展示，二是作为中间结果存入数据仓库；所述推荐引擎来源于引擎维护模块，可以便捷的加入、移除。/n

【技术特征摘要】
1.一种基于Spark的推荐系统，特征在于，所述系统包括以下步骤：
步骤1：收集用户数据；所述收集数据可以是用户的键盘输入，也可以是用户产生的历史性数据、日志等，还有一类数据是用户的反馈信息，该类信息主要用于分析对引擎的改进；
步骤2：对收集到的数据进行加工预处理；系统尽可能的对收集到的无效数据加以过滤，以降低后期离线、在线处理的时间消...

【专利技术属性】
技术研发人员：傅涛，胡燕，郑秩，王力，王路路，徐杰，
申请(专利权)人：博智安全科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人