An improved K_Means algorithm based on Spark is proposed for the analysis of E-commerce catering data, which includes the following steps: step 1, setting up an experimental platform and its configuration to build an execution environment for parallel K_Means clustering algorithm; step 2, acquisition of the original data set; step 3, preprocessing the original data set; step 4, using Scalable language to realize the opening of K_Means algorithm in Park In step 5, the edited program is compiled and executed, and the clustering process is finally completed. The invention utilizes Map and Combine operators provided by Spark, adopts RDD data structure, stores the intermediate calculation results in memory, and combines with an improved clustering algorithm for the initial clustering center part of K_Means algorithm to realize the analysis of catering data in e-commerce, with faster processing speed and better clustering effect.
【技术实现步骤摘要】
一种基于Spark改进的K-Means算法的电商餐饮数据分析方法
本专利技术属于大数据分析挖掘
,尤其是一种基于Spark平台改进的聚类算法在电商餐饮数据分析领域中的应用。
技术介绍
21世纪以来,随着科技的不断进步,我们的社会也越来越信息化,随之而来各行各业的庞大数据与信息化产业也是相辅相成。大数据的存在,给我们的生活,商业,医疗,航天,农业,交通以及其他领域的发展,起了非常重要的作用。因此,挖掘数据之间更加深层次关系,对各领域的预判研究方面有着很重要的价值意义。但是面对数据,分析技术的投入和信息获取之间存在一个巨大的矛盾,如何高效快速的提取所需要的信息及知识、去除不需要的次要或无用信息、提高数据挖掘在各领域的实用性是一个很重要的研究方向。在信息化产业高速发展情况下,数据以几乎指数级别的速度增长,对于数据的研究方法也是具有多样性,其中聚类分析是其中的一种重要的分析方法,也是分析研究人员使用频率最高的方法之一。但传统的数据分析往往受限于数据处理平台和技术,无法满足现阶段研究发展的需求。但近年来,随着Hadoop平台和Spark平台的相继出现,为数据挖掘分析提 ...
【技术保护点】
1.一种基于Spark改进的K‑Means算法的电商餐饮数据分析方法,其特征在于,所述方法包括以下步骤:步骤1,搭建实验平台及其配置,为实现并行K‑Means聚类算法搭建执行环境,过程如下:1.1配置Master的Spark的分布式环境,如下:1.1.1下载Spark2.1.0安装包,解压并进行安装;1.1.2修改相关配置文件:进入/spark2.1.0‑bin‑hadoop2.7.5/conf目录下,修改两个文件,其中一个是配置spark‑env.sh文件,设置变量SCALA_HONE、JAVA_HOME、SPARK_MASTER_IP、SPARK_WOKER_MEMOR ...
【技术特征摘要】
1.一种基于Spark改进的K-Means算法的电商餐饮数据分析方法,其特征在于,所述方法包括以下步骤:步骤1,搭建实验平台及其配置,为实现并行K-Means聚类算法搭建执行环境,过程如下:1.1配置Master的Spark的分布式环境,如下:1.1.1下载Spark2.1.0安装包,解压并进行安装;1.1.2修改相关配置文件:进入/spark2.1.0-bin-hadoop2.7.5/conf目录下,修改两个文件,其中一个是配置spark-env.sh文件,设置变量SCALA_HONE、JAVA_HOME、SPARK_MASTER_IP、SPARK_WOKER_MEMORY和HADOOP_CONF_DIR的值;另一个是配置slave文件,将master和各节点添加到这个文件中;1.2配置Scala开发环境:因为Spark平台使用Scala语言进行编译,所以需要安装Scala;下载到.msi文件以后,按照步骤进行安装,安装完成后,设置全局变量SCALA_HOME为Scala的安装路径;最后进行测试,查看Scala是否安装成功,打开一个新的CMD窗口,输入默认的Scala指令,如果交互命令可以正常循环执行,表示安装成功;步骤2,原始数据集的获取,过程如下:实验数据是选取餐饮商铺的信息数据,数据对象包括经度、维度、城市、店名、地址、综合评分、点评数、环境评分、口味评分、服务评分和商圈数据信息;步骤3,对原始数据集进行预处理,补充空缺数据和删除无用数据;步骤4,使用Scalable语言实现K-Means算法在Spark中的开发,过程如下:4.1K-Means算法以距离作为数据对象之间的相似性度量标准,来对数据进行聚类,属于无监督学习,采用欧氏距离来表示数据之间的相似性,欧氏距离的计算公式:其中,xi,xj分别代表数据集中任意两个数据对象,N表示每个数据对象总属性的个数;K-Means聚类过程中的每一次迭代,聚类中心都要从新计算并更新,计算新的聚类中心,就是计算出这个簇中,所有对象的均值,假设第K个簇的聚类中心表示为Centerk,计算这个簇的新的聚类中心的方式如下:其中,Ck是第K类簇,|Ck|是第K类簇中数据对象的个数,这里的求和是指第K类簇Ck中所有元素在每列属性上的和,所以Centerk是一个长度为D的向量,表示如下:Centerk=[Centerk1,Centerk2,Centerk3,...,CenterkD]迭代的终止条件有两种,一种是设置迭...
【专利技术属性】
技术研发人员:任晨雨,唐月标,黄鹏程,华惊宇,张昱,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。