一种基于聚类的大数据常态模式提取方法及系统技术方案

技术编号：10660933 阅读：180 留言：0更新日期：2014-11-19 20:19

本发明专利技术公开了一种基于聚类的大数据常态模式提取方法。本方法为：1)服务器从各终端采集样本数据，得到一总样本数据集；2)从该总样本数据集中抽取若干样本，并对其聚类，将得到的簇作为样本的标签对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性四项指标；根据计算结果对属性进行排序，选取若干属性作为大数据降维后保留的属性；3)对属性降维后的全体样本数据聚类，将得到的簇作为样本的标签对样本进行标注；4)根据选取的属性划分指标计算已标注样本每一属性的四项指标，选取若干属性特征对该总样本数据集进行划分，将划分结果作为常态模式。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类的大数据常态模式提取方法及系统
本专利技术涉及一种常态模式提取系统，尤其涉及一种基于聚类的大数据常态模式提取方法及系统。
技术介绍
在现实生活中，我们经常需要对一组样本数据进行分类。常用的处理方法有两种：第一种分类方法，基于经验确定一些分类的指标(属性、属性值)并按照这些指标将样本数据分类，例如将一群人分为“青年”、“中年”、“老年”三类，就是基于属性“年龄层”做出的。这种分类方式强烈的依赖于分类人的经验，具有较强的主观色彩，使得不同人对同一组样本数据得到的分类结果可能有较大不同，而且难以确定究竟哪种分类更加科学。第二种分类方法，基于数据挖掘聚类分析的聚类结果，将聚类结果直接作为分类结果，这种方法具有较好的客观性，但存在以下不足：(1)主流的聚类算法没有给出确切的分类标准，基于距离得到的聚类簇中，不同样本的属性值混杂，没有确切的规律，可能某个簇的100个样本中99个都是“性别＝男性”，仅有1个是“性别＝女性”，使得分类结果的实践指导意义较差。(2)对于一类复杂的趋势数据样本，例如某超市每天的顾客购物情况，使用聚类分析得到的簇，不能确定相邻两天得到的簇之间的关系，从而难以研究相关簇之间的时间序列关系。(3)主流的聚类算法属于随机算法，基于随机的初值，聚类结果也随着初值变化，聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。对样本数据进行分类(提取常态模式)时，还会遇到“大数据”的问题。随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本...
一种基于聚类的大数据常态模式提取方法及系统

【技术保护点】
一种基于聚类的大数据常态模式提取方法，其步骤为：1)中央服务器从各终端服务器采集样本数据，得到一总样本数据集；2)从该总样本数据集中抽取若干样本，得到一抽样样本集合并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性；3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序，选取若干属性作为大数据降维后保留的属性；4)对属性降维后的全体样本数据进行聚类，将聚类得到的簇作为样本的标签，对样本进行标注；5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性，然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分，将划分结果作为常态模式；其中，属性值辨识度的计算方法为：选取样本一属性i的一属性值a，计算具有该属性值a的样本属于标签j的条件概率值，以及未增加该属性值条件时样本属于该标签j的概率值；将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值...

【技术特征摘要】
1.一种基于聚类的大数据常态模式提取方法，其步骤为：1)中央服务器从各终端服务器采集样本数据，得到一总样本数据集；2)从该总样本数据集中抽取若干样本，得到一抽样样本集合并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和/或属性值重要性、属性重要性；所述属性降维指标包括属性辨识度和/或属性重要性当选择属性辨识度作为属性降维指标时，计算所述抽样样本集合中已标注样本每一属性的属性值辨识度和属性辨识度；当选择属性重要性作为属性降维指标时，计算所述抽样样本集合中已标注样本每一属性的属性值重要性和属性重要性；当选择属性辨识度和属性重要性共同作为属性降维指标时，计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度、属性值重要性和属性重要性；3)分别根据属性值辨识度、属性辨识度和/或属性值重要性、属性重要性对属性进行排序，选取排序靠前的或大于设定影响力阈值的若干属性作为大数据降维后保留的属性；4)对属性降维后的全体样本数据进行聚类，将聚类得到的簇作为样本的标签，对样本进行标注；5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属性辨识度和/或属性值重要性、属性重要性，然后对计算结果进行排序，分别选用属性重要性最高的属性、属性辨识度最高的属性对样本进行划分，得到所述常态模式；或者根据划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对样本进行划分，得到所述常态模式；其中，属性值辨识度的计算方法为：选取样本一属性i的一属性值a，计算具有该属性值a的样本属于标签j的条件概率值，以及未增加该属性值条件时样本属于该标签j的概率值；将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度；将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度；属性辨识度的计算方法为：将该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度；属性值重要性的计算方法为：将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度，得到该属性值a对于该标签j的属性值重要性；将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性；属性重要性的计算方法为：将该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。2.如权利要求1所述的方法，其特征在于根据所述常态模式划分所依据的属性和属性值，命名所述常态模式的名称。3.如权利要求2所述的方法，其特征在于命名所述常态模式的名称的方法为：在得到所述常态模式的过程中，记录每一所述常态模式所用到的属性和属性值；将第一所用的属性和/或属性值记录为根节点，最后一次所用的属性和/或属性值...

【专利技术属性】
技术研发人员：王电，魏毅，黄煜可，
申请(专利权)人：中国软件与技术服务股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人