一种时间序列自动预处理方法技术

技术编号：13055342 阅读：78 留言：0更新日期：2016-03-23 18:27

本发明专利技术公开了一种时间序列自动预处理方法，包括以下步骤：对待处理的时间序列进行行列扫描；提取处理后时间序列的数据模式特征；根据处理得到的不同模式特征和状态进行预处理元组合；根据预处理元组合的结果对数据清洗的数据质量进行评估。本发明专利技术能够解决现有方法中存在的自动化预处理流程复杂、预处理参数调整会影响后期数据挖掘、时空颗粒度选择产生不可预测结果的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据
，更具体地，涉及。
技术介绍
信息技术和互联网的发展产生了海量数据，为各行各业的智能决策提供了依据。由于时序序列反映了数据随时间变化的模式、异常和趋势，用户能从中发现系统异常、挖掘行为模式、预测未来状态。单时间序列本身具有时效性、数据格式和取值标准具有较大变化、此外还存在缺失、异常和不一致等情况。因此，对时间序列数据的预处理异常重要。现有的时间序列预处理基本是人工完成，在大数据分析处理中工作量达到甚至超过百分之八十。事实上，随着互联网的发展，时序数据和流式数据动态性较大，靠人工分析通常滞后较多，无法满足数据模型构建及数据挖掘的需求。鉴于此，业内开始研究自适应和自动数据预处理模型和挖掘算法，其重心主要集中在预处理自动参数调整和自动化预处理算法组合。包括采用领域知识、信息熵和粒子群进行参数调整，或采用遗传算法和工作流进行自动预处理算法组合。然而，目前的自动预处理算法存在以下问题： 1、自动化预处理流程复杂:为实现时间序列的自动预处理，需遵循一套可扩展、灵活和全面的预处理流程，涵盖格式处理、数据集成、数据采样、模式提取和数据变换等各方面，但具体的组合方式与时间序列本身的模式及数据挖掘的目标密切相关； 2、预处理参数调整会影响后期数据挖掘:预处理过程中不仅涉及到流程，还涉及到每个预处理单元门限参数的设置，门限设置不仅影响到样本的归属，还将对后期的数据挖掘处理产生影响；时空颗粒度选择会产生不可预测的结果:时间序列预处理与其他数据最大的区别在于，不同时间粒度的聚合将会产生不同的结果。如，对收入序...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105426441.html" title="一种时间序列自动预处理方法原文来自X技术">时间序列自动预处理方法</a>

【技术保护点】
一种时间序列自动预处理方法，其特征在于，包括以下步骤：(1)对待处理的时间序列进行行列扫描；(2)提取步骤(1)处理后时间序列的数据模式特征；(3)根据步骤(2)处理得到的不同模式特征和状态进行预处理元组合；(4)根据预处理元组合的结果对数据清洗的数据质量进行评估。

【技术特征摘要】

【专利技术属性】
技术研发人员：莫益军，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人