一类基于聚类分析的大数据处理方法技术

技术编号:21799222 阅读:19 留言:0更新日期:2019-08-07 10:31
本发明专利技术公开了一类基于聚类分析的大数据处理方法,包括如下步骤:构建算法模型、数据约简聚类、划分聚类优化、构建函数、聚类有效性分析和结果输出,本发明专利技术结构科学合理,使用安全方便,该基于聚类分析的大数据处理方法运行时,采集到的原始数据首先会建立原始数据集合,随后进行数据约简,并根据约简后数据中的特征选择,选择具有相同特征的划分成单个聚簇,选取每个聚簇中心位置数据,构建一个划分矩阵代入函数进行优化,随后计算聚类的聚类有效性指标值,若聚类有效性指标值符合,算法终止,输出的运算结果,需转化为计算机所能识别语言,并通过计算机将运算结果转化为图表呈现在电子显示设备上,供使用者参考。

A Class of Large Data Processing Method Based on Cluster Analysis

【技术实现步骤摘要】
一类基于聚类分析的大数据处理方法
本专利技术涉及大数据处理
,具体为一类基于聚类分析的大数据处理方法。
技术介绍
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分,据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%,大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值;聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法,聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法,聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。
技术实现思路
本专利技术提供一种技术方案,可以有效解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一类基于聚类分析的大数据处理方法,包括如下步骤:S1、构建算法模型:在计算机内构建FCM算法模型;S2、数据约简:代入原始数据,使用数据约简算法对原始数据进行约简;S3、聚类划分:代入约简后的数据,根据约简后数据中的特征选择,选择具有相同特征的划分成单个聚簇,将全部约简的数据划分为多个聚簇;S4、聚类优化:选取每个聚簇中心位置数据,构建一个划分矩阵,并代入函数进行优化;S5、构建函数:构建判别函数;S6、聚类有效性分析:代入判别函数,得出聚类有效性指标值,若达到终止条件,停止运算,若未达到终止条件,返回步骤2重新计算;S7、结果输出:输出运算结果,并将运算结果转换为计算机所能识别语言。根据上述技术特征,所述步骤1中,构建的函数模型为:这里c是聚类个数,V=[v1,v2,…,vn]是聚类中心向量构成的矩阵,dij=||xj-vi||表示数据xj与聚类中心vi之间的距离,U=(uij)c×n是模糊划分矩阵,uij表示数据xj属于第i类的隶属度值,满足0≤uij≤1,(i=1,…,c,j=1,…,n)与指数m>1是模糊系数,它用来控制聚类划分结果的模糊程度。根据上述技术特征,所述步骤2中,代入原始数据,假设原始数据集合为约简后数据集合为d(x,S)表示数据x与数据集合S之间的距离,数据约简算法的具体过程如下:A、初始化阈值γ,l=1,yl=x1,j=2;B、对数据xj,计算整数r使其满足d(xj,yr)=min1≤k≤ld(xj,yk);C、如果d(xj,yr)>γ,l=l+1,yl=xj;否则,令yr=yr∪xj,j=j+1;D、如果j<n,转至步骤B;否则,更新yk为其自身数据集合的均值。根据上述技术特征,所述步骤3中,代入DWFCM算法模型的约简后数据,会根据约简后数据中的特征选择,选择具有相同特征的划分成单个聚簇,将全部原始数据划分为n个聚簇。根据上述技术特征,所述步骤4中,选取每个聚簇中心位置数据,构建一个划分矩阵V=(x1+x2+...xn),代入函数进行优化,得到集合Q=(X1+X2+...Xn),去除集合中的重复数据。根据上述技术特征,所述步骤5中,构建判别函数,判别函数具体为:设定聚类个数最小值cmin、最大值cmax、模糊系数m、DWFCM算法的最大运行次数Tmax、迭代收敛精度ε,令当前聚类个数c=cmin、运行次数T=0。根据上述技术特征,所述步骤6具体分为以下几个步骤:a:利用DRA算法得到约简后数据集合b:设定权重为数据精简前的数据个数、随机初始化DWFCM算法的隶属度矩阵或者中心;c:利用式迭代直至满足DWFCM算法终止条件||Unew-Uold||<ε,设定T=T+1,保存聚类中心与目标函数值;d:如果T=Tmax,取为DWFCM算法最小目标函数值对应的聚类中心;e:以为初始中心运行FCM算法,得到聚类中心V与划分矩阵U;f:根据U、V计算聚类个数c的聚类有效性指标值,聚类有效性指标值符合结果,则停止运算,若不符合,令c=c+1,转至步骤2。根据上述技术特征,所述步骤6中,步骤c内,取为数据精简前的数据个数,表示数据与聚类中心vi之间的距离。根据上述技术特征,所述步骤6中,步骤f具体还有以下判别条件:若c=cmax,根据不同个数下的有效性指标值确定最优聚类个数c*,输出c=c*时的聚类划分矩阵与聚类中心,算法终止,否则,令c=c+1,转至步骤2。根据上述技术特征,所述步骤7中,输出的运算结果,需转化为计算机所能识别语言,通过计算机内部存储单元进行存储,并通过计算机将运算结果转化为图表呈现在电子显示设备上,供使用者参考。与现有技术相比,本专利技术的有益效果:本专利技术结构科学合理,使用安全方便:该基于聚类分析的大数据处理方法运行时,采集到的原始数据首先会建立原始数据集合随后初始化阈值γ,l=1,yl=x1,j=2,对数据xj,计算整数r使其满足d(xj,yr)=min1≤k≤ld(xj,yk),如果d(xj,yr)>γ,l=l+1,yl=xj;否则,令yr=yr∪xj,j=j+1,如果j<n,转至步骤B;否则,更新yk为其自身数据集合的均值,约简后数据集合为代入DWFCM算法模型的约简后数据,会根据约简后数据中的特征选择,选择具有相同特征的划分成单个聚簇,将全部原始数据划分为n个聚簇,选取每个聚簇中心位置数据,构建一个划分矩阵V=(x1+x2+...xn),代入函数进行优化,得到集合Q=(X1+X2+...Xn),去除集合中的重复数据,利用DRA算法得到约简后数据集合设定权重为数据精简前的数据个数、随机初始化DWFCM算法的隶属度矩阵或者中心,利用和式迭代直至满足DWFCM算法终止条件||Unew-Uold||<ε,设定T=T+1,保存聚类中心与目标函数值,如果T=Tmax,取为DWFCM算法最小目标函数值对应的聚类中心,以为初始中心运行FCM算法,得到聚类中心V与划分矩阵U,根据U、V计算聚类个数c的聚类有效性指标值,若c=cmax,根据不同个数下的有效性指标值确定最优聚类个数c*,输出c=c*时的聚类划分矩阵与聚类中心,算法终止,否则,令c=c+1,转至步骤2,输出的运算结果,需转化为计算机所能识别语言,通过计算机内部存储单元进行存储,并通过计算机将运算结果转化为图表呈现在电子显示设备上,供使用者参考。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术的流程结构示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本本文档来自技高网...

【技术保护点】
1.一类基于聚类分析的大数据处理方法,其特征在于,包括如下步骤:S1、构建算法模型:在计算机内构建FCM算法模型;S2、数据约简:代入原始数据,使用数据约简算法对原始数据进行约简;S3、聚类划分:代入约简后的数据,根据约简后数据中的特征选择,选择具有相同特征的划分成单个聚簇,将全部约简的数据划分为多个聚簇;S4、聚类优化:选取每个聚簇中心位置数据,构建一个划分矩阵,并代入函数进行优化;S5、构建函数:构建判别函数:S6、聚类有效性分析:代入判别函数,得出聚类有效性指标值,若达到终止条件,停止运算,若未达到终止条件,返回步骤2重新计算;S7、结果输出:输出运算结果,并将运算结果转换为计算机所能识别语言。

【技术特征摘要】
1.一类基于聚类分析的大数据处理方法,其特征在于,包括如下步骤:S1、构建算法模型:在计算机内构建FCM算法模型;S2、数据约简:代入原始数据,使用数据约简算法对原始数据进行约简;S3、聚类划分:代入约简后的数据,根据约简后数据中的特征选择,选择具有相同特征的划分成单个聚簇,将全部约简的数据划分为多个聚簇;S4、聚类优化:选取每个聚簇中心位置数据,构建一个划分矩阵,并代入函数进行优化;S5、构建函数:构建判别函数:S6、聚类有效性分析:代入判别函数,得出聚类有效性指标值,若达到终止条件,停止运算,若未达到终止条件,返回步骤2重新计算;S7、结果输出:输出运算结果,并将运算结果转换为计算机所能识别语言。2.根据权利要求1所述的一类基于聚类分析的大数据处理方法,其特征在于,所述步骤1中,构建的函数模型为:这里c是聚类个数,V=[v1,v2,…,vn]是聚类中心向量构成的矩阵,dij=||xj-vi||表示数据xj与聚类中心vi之间的距离,U=(uij)c×n是模糊划分矩阵,uij表示数据xj属于第i类的隶属度值,满足0≤uij≤1,(i=1,…,c,j=1,…,n)与指数m>1是模糊系数,它用来控制聚类划分结果的模糊程度。3.根据权利要求1所述的一类基于聚类分析的大数据处理方法,其特征在于,所述步骤2中,代入原始数据,假设原始数据集合为约简后数据集合为d(x,S)表示数据x与数据集合S之间的距离,数据约简算法的具体过程如下:A、初始化阈值γ,l=1,yl=x1,j=2;B、对数据xj,计算整数r使其满足d(xj,yr)=min1≤k≤ld(xj,yk);C、如果d(xj,yr)>γ,l=l+1,yl=xj;否则,令j=j+1;D、如果j<n,转至步骤B;否则,更新yk为其自身数据集合的均值。4.根据权利要求1所述的一类基于聚类分析的大数据处理方法,其特征在于,所述步骤3中,代入DWFCM算法模型的约简后数据,会根据约简后数据中的特征选择,选择具有相同特征的划分成单个聚簇,将全部原始数据划分为n个聚簇。5....

【专利技术属性】
技术研发人员:胡雅婷李健汪威王国伟温长吉石磊杨之音王明月丁小奇姜楠任虹宾赵珊珊蔡红丹申利未熊琦王希陈营华
申请(专利权)人:吉林农业大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1