一种基于时间序列的计算机数据挖掘聚类方法技术

技术编号：24091157 阅读：79 留言：0更新日期：2020-05-09 08:08

本发明专利技术涉及计算机数据挖掘聚类技术领域，公开了一种基于时间序列的计算机数据挖掘聚类方法，该方法具体包括如下步骤：步骤1：输入给定的特征样本a和b，并对获取到的特征样本进行预处理，得到相应的数据调用信息；步骤2：对时间序列下的a和b进行极值点求取，得到极值点序列a’和b’，并将类距离最大的两组进行合并处理，合并后类别数相应地减少一个；该方法能够有效地处理数据量大、纬度高的时间序列数据，操作过程中较为简易，能够高效地进行数据挖掘聚类，适用性得到了显著的提升，同时该方法根据量化后的元素来得到数据调用的相似程度，并根据数据调用的相似度来得到系统调用序列的相似度，可以增加取得的数据调用信息的精准度。

A clustering method of computer data mining based on time series

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时间序列的计算机数据挖掘聚类方法
本专利技术涉及计算机数据挖掘聚类
，具体是一种基于时间序列的计算机数据挖掘聚类方法。
技术介绍
数据是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材，数据是信息的表现形式和载体，可以是符号、文字、数字、语音、图像和视频等。数据和信息是不可分离的，数据是信息的表达，信息是数据的内涵。数据本身没有意义，数据只有对实体行为产生影响时才成为信息，在计算机系统中，数据以二进制信息单元0.1的形式表示。时间序列是指按时间顺序排列的一组数据，是一类重要的复杂数据对象。作为数据库中的一种数据形式，它广泛存在于各种大型的商业、社会科学、医学和工程等数据库中，如股票价格、各种汇率、销售数量、产品的生产能力和天气数据等。大量时间序列数据真实地记录了系统在各个时刻的所有重要信息，提出某种高效的数据处理方法，同时理清各时间序列之间的关联，将极大提高人们对这类系统的认识和理解，进而进行有效的预测和控制。时间序列数据挖掘(TimeSeriesDataMining，TSDM)就是要从大量的时间序列数据中提取人们事先不知道的、与时间属性相关的有用信息和知识，用于指导人们的社会、经济、军事和生活等活动。时间序列挖掘对人类社会、科技和经济的发展具有重大意义，正逐渐成为数据挖掘的研究热点之一。虽然现在国内外对数据挖掘的研究已经取得不少的成果，但是对各个应用领域的时间序列的挖掘却没有通用性，无法取得针对性的进展。因此，本领域技术人员提供了一种基于时间序列的计算...

【技术保护点】
1.一种基于时间序列的计算机数据挖掘聚类方法，其特征在于，该方法具体包括如下步骤：/n步骤1：输入给定的特征样本a和b，并对获取到的特征样本进行预处理，得到相应的数据调用信息；/n步骤2：对时间序列下的a和b进行极值点求取，得到极值点序列a’和b’，并将类距离最大的两组进行合并处理，合并后类别数相应地减少一个；/n步骤3：将上述的数据调用信息进行分类，构建出相应的三元组模型，并将三元组模型中的元素进行量化处理，同时还应根据量化后的元素来得到数据调用的相似程度，并根据数据调用的相似度来得到系统调用序列的相似度；/n步骤4：将上述的数据调用信息进行大数据切分，并得出切分后的多个数据模块，将得出的多个数据模块存储到云平台的文件系统HDFS中，并通过Hadoop来负责管理和协调切分后的数据模块；/n步骤5：将上述的数据模块映射到步骤2中的极值点序列a’和b’上，即每个数据模块映射到一个超图上，并通过超图对每个数据模块分别进行聚类处理；/n步骤6：对步骤5得到的每个数据模块的聚类结果进行再次聚类，最后即可得到理想的聚类结果。/n

【技术特征摘要】
1.一种基于时间序列的计算机数据挖掘聚类方法，其特征在于，该方法具体包括如下步骤：
步骤1：输入给定的特征样本a和b，并对获取到的特征样本进行预处理，得到相应的数据调用信息；
步骤2：对时间序列下的a和b进行极值点求取，得到极值点序列a’和b’，并将类距离最大的两组进行合并处理，合并后类别数相应地减少一个；
步骤3：将上述的数据调用信息进行分类，构建出相应的三元组模型，并将三元组模型中的元素进行量化处理，同时还应根据量化后的元素来得到数据调用的相似程度，并根据数据调用的相似度来得到系统调用序列的相似度；
步骤4：将上述的数据调用信息进行大数据切分，并得出切分后的多个数据模块，将得出的多个数据模块存储到云平台的文件系统HDFS中，并通过Hadoop来负责管理和协调切分后的数据模块；
步骤5：将上述的数据模块映射到步骤2中的极值点序列a’和b’上，即每个数据模块映射到一个超图上，并通过超图对每个数据模块分别进行聚类处理；
步骤6：对步骤5得到的每个数据模块的聚类结果进行再次聚类，最后即可得到理想的聚类结果。

2.根据权利要求1所述的一种基于时间序列的计算机数据挖掘聚类方法，其特征在于，所述步骤1中获取到的特征样...

【专利技术属性】
技术研发人员：郭柯卿，黄玉划，王娜，蓝天，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人