一种基于时间序列的计算机数据挖掘方法技术

技术编号:15059280 阅读:60 留言:0更新日期:2017-04-06 09:02
本发明专利技术公开了一种基于时间序列的计算机数据挖掘方法,该计算机数据挖掘方法通过对输入样本集进行去噪、归一化处理,并对处理后的样本集进行相似矩阵构造,得到相似图的非规格拉普拉斯矩阵,再采用拉普拉斯特征映射算法得到特征向量空间,然后采用多簇特征选择得分选出相关系数最大的属性,最后输出需选择的特征数。该方法能够有效地处理数据量大、维度高的时间序列数据,能够高度还原原始数据和降维处理,化简了运算与处理,提高了数据挖掘的精度,便于高效地获取所需特征数据。

【技术实现步骤摘要】

本专利技术涉及计算机数据挖掘技术的领域,尤其是涉及一种基于时间序列的计算机数据挖掘方法。
技术介绍
近年来,随着数据采集和存储等技术的发展,信息社会的数据呈现了爆棚式增长,出现了“数据丰富,信息贫乏”的局面。海量数据不仅使得人们难以分辨出有用的数据,更大大增加了数据分析工作的复杂程度。为了解决这个问题,数据挖掘技术应运而生。数据挖掘的诞生,旨在将社会上存在的可以广泛使用的大量数据,转换成有用的知识和信息,应用于市场分析、欺诈监测、顾客保有、产品控制和科学探索等。在实际应用中,数据挖掘任务繁多,但通常可以分为两类:预测和播述。它涉及多个学科,比如机器学习、数理统计、棋式识别、信号处理、数据库等等,数据挖掘作为一口面向应用的技术,传统的数据挖掘算法不能适用于所有应用场景。因为在实际应用中,数据库中的数据往往不是十分理想,比如非平衡数据、多分类数据、时间序列和数据流等。虽然近年来,数据挖掘技术在理论和实际应用中都取得了丰硕的成果,但由于实际工程中数据复杂、挖掘任务多样,仍有许多具有挑战性的课题亟待解决,时间序列的挖掘就是其中一个重要问题。时间序列是指将某些指标在不同时间上的数值按照时间先后顺序排列而形成的序列。与传统数据集相比,时间序列的特点是数据量大、维度高、随着时间更新,而且通常是连续值。因此,传统的数据挖掘算法直接应用于时间序列的效果并不理想,该问题有待于急需解决。
技术实现思路
本专利技术的目的是克服现有技术中存在的上述缺陷,提供一种基于时间序列的计算机数据挖掘方法,使其能够有效地处理数据量大、维度高的时间序列数据,能够高度还原原始数据和降维处理,化简其运算与处理,提高其数据挖掘的精度,便于高效地获取所需特征数据。为了实现上述目的,本专利技术提供了一种基于时间序列的计算机数据挖掘方法,该方法包括如下步骤:步骤1:输入给定样本集x,其中x={x1,x2,···,xn本文档来自技高网...

【技术保护点】
一种基于时间序列的计算机数据挖掘方法,其特征在于,该方法包括以下步骤:步骤1:输入给定样本集x,其中x={x1,x2,···,xn};步骤2:输入需选择的特征数m;步骤3:对输入样本集进行去噪、归一化处理;步骤4:对处理后的样本集进行相似矩阵M的构造,其相似矩阵M表示为:其中xi,xj为给定样本,M为相似矩阵,M0为单位矩阵,为样本xi和xj之间的马氏距离;步骤5:计算得到相似图的非规格拉普拉斯矩阵S,其非规格拉普拉斯矩阵S表示为:S=D‑M,其中S为非规格拉普拉斯矩阵,M为相似矩阵,D为对角矩阵,对角矩阵D的求取采用Dii=ΣjMij进行求取;步骤6:采用拉普拉斯特征映射算法得到特征向量空间Y,其特征向量空间Y表示为:Y=[Y1,Y2,...,Yk],其中,k为大于m小于n的常数;步骤7:采用多簇特征选择得分,选出m个相关系数最大的属性,其中多簇特征选择得分的定义为:F(j)=aj{Y→X},其中,aj为特征向量空间Y中第j个特征逼近其原始数据X中对应数值的相关系数,F(j)为第j个特征的权重得分数,j为从1到k的常数;步骤8:输出m个需选择的特征数W,其特征数W表示为:W=[W1,W2,...,Wm]。...

【技术特征摘要】
1.一种基于时间序列的计算机数据挖掘方法,其特征在于,该方法包括以下步...

【专利技术属性】
技术研发人员:黄海洋关宏波
申请(专利权)人:郑州轻工业学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1