一种基于常态模式的大数据态势分析预警方法及系统技术方案

技术编号:10599373 阅读:201 留言:0更新日期:2014-10-30 13:05
本发明专利技术公开了一种基于常态模式的大数据态势分析预警方法及系统。本方法为:服务器从各终端采集样本,并按照时间段对样本划分;对于每一时间段的样本数据集聚类,得到的簇作为样本的标签进行标注,计算降维指标进行大数据降维,再次针对降维后的数据进行聚类,获得数据客观蕴含的相似性,继而将所得簇作为已知的分类标准,提取属性值辨识度、属性辨识度、属性值重要性、属性重要性,使用全新的常态模式提取方法获取常态模式,然后将常态模式的个数定义为态势指数;最后将各个时间段的态势指数形成时间序列,使用拐点分析方法进行异常值预警,预警方法简便、效果较好。

【技术实现步骤摘要】
一种基于常态模式的大数据态势分析预警方法及系统
本专利技术涉及一种预警方法,尤其涉及一种基于常态模式的态势分析预警方法及系统。
技术介绍
在现实生活中,我们经常会面对具有一定周期性的复杂时间序列数据,在每个时间点对应的截面上,都对应一组样本数据,各个时间点之间的样本数据没有必然的联系,从而不是公知的面板数据,甚至各时间点的样本数量都不具有相等关系。我们希望在对这些数据缺乏足够了解的情况下,确定每个截面上数据之间的相似性,判断不同属性对这种相似性的影响程度,以及这些蕴含在数据中的关系在时间序列上如何传递和变化,并由此作出异常情况的预警。由于我们对数据的了解非常缺乏,我们常常需要依据经验、主观地将属性进行分类,一般进行后续的研究。例如,对于消费者的购物篮数据,我们将消费者按照消费金额分为高、中、低三类,或者按照消费者年龄分为老、中、青三类,再比较各个分类的众多数据的均值、方差等指标随时间序列的变化,由此作出预警。这种分类方法存在两大缺陷:其一,严重依赖于主观的分类,使分析结果丧失客观性;其二,将众多数据压缩成均值、方差等指标,丧失了大量的信息,使分析结果不能充分反映情况,预警效果差强人意本文档来自技高网...
一种基于常态模式的大数据态势分析预警方法及系统

【技术保护点】
一种基于常态模式的大数据态势分析预警方法,其步骤为:1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为...

【技术特征摘要】
1.一种基于常态模式的大数据态势分析预警方法,其步骤为:1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;其中,所述属性降维指标包括属性辨识度和或属性重要性;3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取排序靠前的若干属性作为大数据降维后保留的属性;4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进行标注;5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序,分别选用属性重要性最高的属性、属性辨识度最高的属性对所述样本数据集进行划分,得到所述常态模式;或者选取划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对所述样本数据集进行划分,得到所述常态模式;6)将各个时间段的常态模式个数作为态势指数,得到一态势指数时间序列;然后根据该态势指数时间序列确定一常态区域;7)计算当前时刻所采集样本数据的态势指数,如果超出所述常态区域,则对其进行监控,并计算下一时刻所采集样本数据的态势指数,如果仍超出所述常态区域,则进行预警;其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;即对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度;属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性;即对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。2.如权利要求1所述的方法,其特征在于确定所述常态区域的方法为:首先根据所述样本数据的采样周期确定态势指数的变化周期;根据多个变化周期的态势指数绘制一常态区域图,然后根据该常态区域图的最大值和最小值确定出所述常态区域。3.如权利要求1或2所述的方法,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。4.如权利要求3所述的方法,其特征在于命名所述常态模式的名称的方法为:在得到所述常态模式的过程中,记录每一所述常态模式所用到的属性和属性值;将第一所用的属性和或属性值记录为根节点,最后一次所用的属性和或属性值记录为叶节点;然后沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模...

【专利技术属性】
技术研发人员:王电黄煜可陈庆彬
申请(专利权)人:中国软件与技术服务股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1