新能源使用行为的时序特征隐含因素抽取和刻画方法及系统技术方案

技术编号：22166722 阅读：36 留言：0更新日期：2019-09-21 10:29

本发明专利技术提出了一种新能源使用行为的时序特征隐含因素抽取和刻画方法，包括：获取用户使用情况的原始数据；通过计算原始数据各项统计指标，设定用于筛选可以用于特征提取的原始数据的标准；时间序列数据预处理；对于抽取并完成数据转换的时间序列数据，采用聚类方法进行模式识别，得到具有明显特征的时序聚类中心，即数据中具有标志性的时间序列；计算各站点的时间序列在各类别所占比例，将其组成为向量，即是抽取得到的刻画使用行为的隐含因素。本发明专利技术通过将隐含因素作为新的特征，加入已有的选址预测等计算模型，可以发现预测在各预测模型上均有较高的准确度提升，这也从侧面反映了所抽取到的时序隐含特征能够刻画各站点的使用情况。

Method and System for Extracting and Describing Implicit Factors of Time Series Characteristics of New Energy Use Behavior

全部详细技术资料下载

【技术实现步骤摘要】
新能源使用行为的时序特征隐含因素抽取和刻画方法及系统
本专利技术涉及大数据
，具体涉及新能源使用行为的时序特征隐含因素抽取和刻画方法及系统。
技术介绍
时间序列数据是在特定时间内监测或记录下的有序数据集合。分析的前提是认为这些收集到的数据点在一段时间内的变化可能具有特定的内部结构，比如趋势季节变化等等。在此前提下，通过比较不同时间点上单个或多个时间序列的值，对时间序列数据进行分析，进而提取出数据特征。时间序列预测方法可分为：简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑法等。通常，时间序列数据中都会含有随机扰动因素的影响，这些具有不确定性的因素导致的数量变化被统称为随机变量，最常见的做法是通过“平滑数据”的方法来降低或消除随机变量带来的影响。模式识别又常称作模式分类，就是通过计算机用数学技术方法来研究模式的自动处理和判读。从处理问题的性质和解决问题的方法等角度，模式识别分为有监督的分类和无监督的分类两种。二者的主要差别在于，各实验样本所属的类别是否预先已知。一般说来，有监督的分类往往需要提供大量已知类别的样本，但在实际问题中，这是存在一定困难的。另外，从用户行为产生数据的角度来看，不同的人群必定有着不同的使用习惯，比如不同的职业一般有着不同的工作出勤时段，有着不同出行习惯，居住在不同地区的人，出行也有着不同的行为模式，因此有必要从纷繁复杂的时序数据中识别出其中的差异，以便于精准地对不同的行为习惯进行刻画与描述，帮助准确分析和预测人们的新能源使用情况。现存的方法大多采取直接利用用户信息(年龄、收入、工作等)的方法从...

【技术保护点】
1.一种新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，包括：步骤A：获取用户使用情况的原始数据；步骤B：通过计算原始数据各项统计指标，设定用于筛选可以用于特征提取的原始数据的标准；步骤C：对于时序数据进行归一化处理和特征抽取，具体包括以下步骤：步骤C1：将数据转换为随时间变化的各站点利用率的时间序列；步骤C2：转换完毕的数据，对各站点的时间序列进行平滑；步骤C3：对平滑后的每个时刻的数据打上分类标签；步骤C4：以较大的时间长度为单位，将数据转换为长度为24小时的时序数据；步骤D：基于聚类算法进行隐含的特征表示，具体包括以下步骤步骤D1：对于抽取并完成数据转换的时间序列数据，采用聚类方法进行模式识别，得到具有明显特征的时序聚类中心；步骤D2：通过时序聚类中心来描绘各站点的使用行为；步骤E：基于隐含的特征表示，形成对使用行为的刻画；步骤E1：根据聚类结果，计算各站点的时间序列在各类别所占比例；步骤E2：将统计得到的比例以站点为单位组成向量，即是描述对应站点使用行为的隐含因素。

【技术特征摘要】
1.一种新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，包括：步骤A：获取用户使用情况的原始数据；步骤B：通过计算原始数据各项统计指标，设定用于筛选可以用于特征提取的原始数据的标准；步骤C：对于时序数据进行归一化处理和特征抽取，具体包括以下步骤：步骤C1：将数据转换为随时间变化的各站点利用率的时间序列；步骤C2：转换完毕的数据，对各站点的时间序列进行平滑；步骤C3：对平滑后的每个时刻的数据打上分类标签；步骤C4：以较大的时间长度为单位，将数据转换为长度为24小时的时序数据；步骤D：基于聚类算法进行隐含的特征表示，具体包括以下步骤步骤D1：对于抽取并完成数据转换的时间序列数据，采用聚类方法进行模式识别，得到具有明显特征的时序聚类中心；步骤D2：通过时序聚类中心来描绘各站点的使用行为；步骤E：基于隐含的特征表示，形成对使用行为的刻画；步骤E1：根据聚类结果，计算各站点的时间序列在各类别所占比例；步骤E2：将统计得到的比例以站点为单位组成向量，即是描述对应站点使用行为的隐含因素。2.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，步骤B中，设定的标准是对记录丢失率为80％以上的站点数据进行筛去，再对剩余数据中的缺失值进行填补，通过均值、补零、回归方法。3.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，步骤C1中，通过程序，可以批量的对数据进行计算和转换；所述程序流程为按时间戳依次扫描初步清洗后的数据，统计按小时、天、周等时间长度为单位的站点利用率情况，从而得到以某时间长度为基本单位的时间序列数据...

【专利技术属性】
技术研发人员：姚俊杰，王江涛，郭羽翟，黄嘉祥，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人