一种基于聚类的大数据常态模式提取方法及系统技术方案

技术编号:10660933 阅读:180 留言:0更新日期:2014-11-19 20:19
本发明专利技术公开了一种基于聚类的大数据常态模式提取方法。本方法为:1)服务器从各终端采集样本数据,得到一总样本数据集;2)从该总样本数据集中抽取若干样本,并对其聚类,将得到的簇作为样本的标签对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性四项指标;根据计算结果对属性进行排序,选取若干属性作为大数据降维后保留的属性;3)对属性降维后的全体样本数据聚类,将得到的簇作为样本的标签对样本进行标注;4)根据选取的属性划分指标计算已标注样本每一属性的四项指标,选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式。

【技术实现步骤摘要】
一种基于聚类的大数据常态模式提取方法及系统
本专利技术涉及一种常态模式提取系统,尤其涉及一种基于聚类的大数据常态模式提取方法及系统。
技术介绍
在现实生活中,我们经常需要对一组样本数据进行分类。常用的处理方法有两种:第一种分类方法,基于经验确定一些分类的指标(属性、属性值)并按照这些指标将样本数据分类,例如将一群人分为“青年”、“中年”、“老年”三类,就是基于属性“年龄层”做出的。这种分类方式强烈的依赖于分类人的经验,具有较强的主观色彩,使得不同人对同一组样本数据得到的分类结果可能有较大不同,而且难以确定究竟哪种分类更加科学。第二种分类方法,基于数据挖掘聚类分析的聚类结果,将聚类结果直接作为分类结果,这种方法具有较好的客观性,但存在以下不足:(1)主流的聚类算法没有给出确切的分类标准,基于距离得到的聚类簇中,不同样本的属性值混杂,没有确切的规律,可能某个簇的100个样本中99个都是“性别=男性”,仅有1个是“性别=女性”,使得分类结果的实践指导意义较差。(2)对于一类复杂的趋势数据样本,例如某超市每天的顾客购物情况,使用聚类分析得到的簇,不能确定相邻两天得到的簇之间的关系,从而难以研究相关簇之间的时间序列关系。(3)主流的聚类算法属于随机算法,基于随机的初值,聚类结果也随着初值变化,聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。对样本数据进行分类(提取常态模式)时,还会遇到“大数据”的问题。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多,例如:根据数据本身的特性,可以分为线性降维和非线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。在降维过程中,本专利旨在采用完全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说,这些在降维中被保留下来的维度不是主观确定的,不依赖于经验模型。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种基于聚类的大数据常态模式提取方法及系统,本专利技术的常态模式划分方法是基于聚类分析的结果,具有较强的客观性,又有效的克服了主流聚类算法的不足。本专利技术通过对样本数据进行聚类分析,将所得“簇”作为已知的分类标准(标签),提取属性值辨识度、属性辨识度、属性值重要性、属性重要性等“属性对相似性的影响力”的四项指标,再使用全新的常态模式提取方法获取“常态模式”,并给出常态模式的命名方法。本专利技术的技术方案为:一种基于聚类的大数据常态模式提取方法,其步骤为:1)中央服务器从各终端服务器采集样本数据,得到一总样本数据集;2)从该总样本数据集中抽取若干样本,得到一抽样样本集合并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进行标注;5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式;其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。进一步的,对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度。进一步的,对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。进一步的,分别选用属性重要性最高的属性、属性辨识度最高的属性对样本进行划分,得到所述常态模式;或者选取划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对样本进行划分,得到所述常态模式。进一步的,根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。进一步的,命名所述常态模式的名称的方法为:在得到所述常态模式的过程中,记录每一所述常态模式所用到的属性和属性值;将第一所用的属性和或属性值记录为根节点,最后一次所用的属性和或属性值记录为叶节点;然后沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。本专利技术的系统主要如图5所示,包括:(1)数据采集模块。将待分析的样本数据从分布在各地的终端服务器数据库中传输汇总到中央服务器的数据库中。(2)数据降维模块。对采集的样本进行抽样和聚类分析,得到若干簇,将聚类得到的簇作为样本的标签,对样本进行标注。计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性,提取由数据本身决定的“属性对相似性的影响力”指标;然后根据指标计算结果对属性排序;选取排序靠前的属性。本专利技术公开了一种全新的常态模式划分方法,可以建立在任何一种公知的聚类分析算法结果之上,提取由数据本身决定的“属性对相似性的影响力”指标,这些指标包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性。本专利技术将聚类分析获得的簇作为已知的分类标签,由此,“属性对相似性的影响力”指标等价于“属性对已知标签的影响力”指标。这是因为,使用聚类分析方法让数据通过无监督学习生成若干“簇”,这些簇是基于距离或相似度来确定的,满足簇中的对象彼此相似,而与其他簇中的对象相异。粗略的看,聚类的结果与属性和属性值没有直接关联,即不是由某些属性来划分的。但是,考虑到距离或相似度的定义基于属性和属性值,因此属性和属性值对簇的形成具有实际的影响,而且不同的属性和属性值的影响力并不相同。因此,将聚类分析获得的簇作为已知的分类标签,进而提取属性对分类的影响力的四项指标具有实际意义。(3)常态模式划分模块。常态模式,可以理解为样本数据中的常见类型,每个常态模式都是一组属性值的集合,常本文档来自技高网
...
一种基于聚类的大数据常态模式提取方法及系统

【技术保护点】
一种基于聚类的大数据常态模式提取方法,其步骤为:1)中央服务器从各终端服务器采集样本数据,得到一总样本数据集;2)从该总样本数据集中抽取若干样本,得到一抽样样本集合并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进行标注;5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式;其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。...

【技术特征摘要】
1.一种基于聚类的大数据常态模式提取方法,其步骤为:1)中央服务器从各终端服务器采集样本数据,得到一总样本数据集;2)从该总样本数据集中抽取若干样本,得到一抽样样本集合并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和/或属性值重要性、属性重要性;所述属性降维指标包括属性辨识度和/或属性重要性当选择属性辨识度作为属性降维指标时,计算所述抽样样本集合中已标注样本每一属性的属性值辨识度和属性辨识度;当选择属性重要性作为属性降维指标时,计算所述抽样样本集合中已标注样本每一属性的属性值重要性和属性重要性;当选择属性辨识度和属性重要性共同作为属性降维指标时,计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度、属性值重要性和属性重要性;3)分别根据属性值辨识度、属性辨识度和/或属性值重要性、属性重要性对属性进行排序,选取排序靠前的或大于设定影响力阈值的若干属性作为大数据降维后保留的属性;4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进行标注;5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属性辨识度和/或属性值重要性、属性重要性,然后对计算结果进行排序,分别选用属性重要性最高的属性、属性辨识度最高的属性对样本进行划分,得到所述常态模式;或者根据划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对样本进行划分,得到所述常态模式;其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;属性辨识度的计算方法为:将该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度;属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;属性重要性的计算方法为:将该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。2.如权利要求1所述的方法,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。3.如权利要求2所述的方法,其特征在于命名所述常态模式的名称的方法为:在得到所述常态模式的过程中,记录每一所述常态模式所用到的属性和属性值;将第一所用的属性和/或属性值记录为根节点,最后一次所用的属性和/或属性值...

【专利技术属性】
技术研发人员:王电魏毅黄煜可
申请(专利权)人:中国软件与技术服务股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1