新能源使用行为的时序特征隐含因素抽取和刻画方法及系统技术方案

技术编号:22166722 阅读:36 留言:0更新日期:2019-09-21 10:29
本发明专利技术提出了一种新能源使用行为的时序特征隐含因素抽取和刻画方法,包括:获取用户使用情况的原始数据;通过计算原始数据各项统计指标,设定用于筛选可以用于特征提取的原始数据的标准;时间序列数据预处理;对于抽取并完成数据转换的时间序列数据,采用聚类方法进行模式识别,得到具有明显特征的时序聚类中心,即数据中具有标志性的时间序列;计算各站点的时间序列在各类别所占比例,将其组成为向量,即是抽取得到的刻画使用行为的隐含因素。本发明专利技术通过将隐含因素作为新的特征,加入已有的选址预测等计算模型,可以发现预测在各预测模型上均有较高的准确度提升,这也从侧面反映了所抽取到的时序隐含特征能够刻画各站点的使用情况。

Method and System for Extracting and Describing Implicit Factors of Time Series Characteristics of New Energy Use Behavior

【技术实现步骤摘要】
新能源使用行为的时序特征隐含因素抽取和刻画方法及系统
本专利技术涉及大数据
,具体涉及新能源使用行为的时序特征隐含因素抽取和刻画方法及系统。
技术介绍
时间序列数据是在特定时间内监测或记录下的有序数据集合。分析的前提是认为这些收集到的数据点在一段时间内的变化可能具有特定的内部结构,比如趋势季节变化等等。在此前提下,通过比较不同时间点上单个或多个时间序列的值,对时间序列数据进行分析,进而提取出数据特征。时间序列预测方法可分为:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑法等。通常,时间序列数据中都会含有随机扰动因素的影响,这些具有不确定性的因素导致的数量变化被统称为随机变量,最常见的做法是通过“平滑数据”的方法来降低或消除随机变量带来的影响。模式识别又常称作模式分类,就是通过计算机用数学技术方法来研究模式的自动处理和判读。从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类和无监督的分类两种。二者的主要差别在于,各实验样本所属的类别是否预先已知。一般说来,有监督的分类往往需要提供大量已知类别的样本,但在实际问题中,这是存在一定困难的。另外,从用户行为产生数据的角度来看,不同的人群必定有着不同的使用习惯,比如不同的职业一般有着不同的工作出勤时段,有着不同出行习惯,居住在不同地区的人,出行也有着不同的行为模式,因此有必要从纷繁复杂的时序数据中识别出其中的差异,以便于精准地对不同的行为习惯进行刻画与描述,帮助准确分析和预测人们的新能源使用情况。现存的方法大多采取直接利用用户信息(年龄、收入、工作等)的方法从侧面预测用户的数据行为,需要大量的人工劳动去筛选其中最为有效的特征,预测效果也不一定具有保障,也没有充分利用到用户行为数据中潜在的有价值信息,本专利技术所提出的方法,既不需要大量的人工劳动进行特征工程的构建,也能够充分利用用户行为数据,实现了数据驱动的解决办法,更为合理有效。
技术实现思路
为克服现有技术的上述问题,本专利技术提供了一种新能源使用行为的时序特征隐含因素抽取和刻画方法及系统。本专利技术方法采用无监督的形式模式分类方法,通过将隐含因素作为新的特征,加入已有的选址预测等计算模型,可以发现预测在各预测模型上均有较高的准确度提升,从侧面反映了所抽取到的时序隐含特征能够刻画各站点的使用情况。本专利技术提出了一种新能源使用行为的时序特征隐含因素抽取和刻画方法,包括:步骤A:获取用户使用情况的原始数据;步骤B:通过计算原始数据各项统计指标,设定用于筛选可以用于特征提取的原始数据的标准;步骤C:对于时序数据进行归一化处理和特征抽取,具体包括以下步骤:步骤C1:将数据转换为随时间变化的各站点利用率的时间序列;步骤C2:转换完毕的数据,对各站点的时间序列进行平滑;步骤C3:对平滑后的每个时刻的数据打上分类标签;步骤C4:以较大的时间长度为单位,将数据转换为长度为24小时的时序数据;步骤D:基于聚类算法进行隐含的特征表示,具体包括以下步骤步骤D1:对于抽取并完成数据转换的时间序列数据,采用聚类方法进行模式识别,得到具有明显特征的时序聚类中心;步骤D2:通过时序聚类中心来描绘各站点的使用行为;步骤E:基于隐含的特征表示,形成对使用行为的刻画;步骤E1:根据聚类结果,计算各站点的时间序列在各类别所占比例;步骤E2:将统计得到的比例以站点为单位组成向量,即是描述对应站点使用行为的隐含因素。本专利技术步骤B中,设定的标准是对记录丢失率为80%以上的站点数据进行筛去,再对剩余数据中的缺失值进行填补,通过均值、补零、回归方法。本专利技术步骤C1中,通过程序,可以批量的对数据进行计算和转换;所述程序流程为按时间戳依次扫描初步清洗后的数据,统计按小时、天、周等时间长度为单位的站点利用率情况,从而得到以某时间长度为基本单位的时间序列数据。本专利技术步骤C2中,采用滑动平均法,以降低极端值等特殊情况对特征提取时的影响。本专利技术步骤C3中,按三分位数将利用率情况进一步划分为低、中、高三类,以增强最后的特征提取效果,完成所述数据的抽取工作。本专利技术步骤D中,聚类方法选用k-SpectralCentroid算法,首先将时间序列按峰值对齐,然后补全或平移部分数据,使各时序等长,最后采用谱聚类的方式计算k个聚类中心。本专利技术步骤E中,计算方法为首先统计各站点原有数据记录条数然后统计属于某一个类别的总数,则该类别所占比例即为该类别所占记录条数/总记录条数*100%。基于以上方法,本专利技术还提出了一种新能源使用行为的时序特征隐含因素抽取和刻画系统,所述系统包括:数据获取模块,用于获取用户使用情况的原始数据;数据清洗及抽取模块,通过计算原始数据各项统计指标,设定用于筛选可以用于特征提取的原始数据的标准;时间序列数据预处理模块,用于对时间序列数据预处理;时序数据聚类模块,对于抽取并完成数据转换的时间序列数据,采用聚类方法进行模式识别,得到具有明显特征的时序聚类中心,即数据中具有标志性的时间序列;新特征产生模块,计算各站点的时间序列在各类别所占比例,将其组成为向量,即是抽取得到的刻画使用行为的隐含因素。本专利技术的有益效果在于:通过将隐含因素作为新的特征,加入已有的选址预测等计算模型,可以发现预测在各预测模型上均有较高的准确度提升,这也从侧面反映了所抽取到的时序隐含特征能够刻画各站点的使用情况。已有的选址预测等计算模型是指实验中所预先设计的预测模型,主要包括随机森林模型和支持向量机模型两种。本专利技术相对于不将“隐含因素作为新的特征”,准确度提升保持在15%以上,相对于原准确度。本专利技术通过在多个时间跨度上对用户行为时序数据进行聚类,对用户行为以聚类结果为特征进行表示和描述,解决了现有技术对用户行为刻画和描述的局限问题,使用的方法属于本时序处理领域的常规方法。相对于现有技术,本专利技术避免了需要专业知识,专家经验的特征工程任务,以更为科学合理的数据驱动的方法自动提取除了刻画用户行为的隐含因素,并且提取得到的隐含因素具有可解释性,易于理解,另外通过实验证明了该隐含因素对选址预测模型的预测效果具有明显的提高作用。附图说明图1为本专利技术提供的系统流程和作用图。图2为用户行为数据在某一时段的聚类结果中心的可视化展示、共5个类别,横轴为时间点(0点至24点),纵轴为利用率。图3为各站点的聚类结果各类别所占比例,当为某一具体站点各类别所占比例时,即组成为对该站点用户行为进行刻画的向量。图4为将总体上各类别所占比重,刻画用户行为的拥有隐含的5种模式类别。图5为某一类别中所有站点附近地区的地图上兴趣点采集统计后结果的示意图。具体实施方式结合以下具体实施例和附图,对专利技术作进一步的详细说明。实施本专利技术的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本专利技术没有特别限制内容。实施例1本实施例提供了一种新能源使用行为的时序特征隐含因素抽取和刻画方法包括以下步骤:(1)数据获取首先,需要获取用户使用情况的原始数据,可以采用自行获取的方式,也可以通过联系厂商获得。(2)数据清洗及抽取因为原始数据中不可避免的包含了因网络、硬件等原因产生的异常数据以及其他对特征抽取没有作用的额外信息等,需要对上述获得的数据进行清洗和抽取。通过计算原始数据各本文档来自技高网
...

【技术保护点】
1.一种新能源使用行为的时序特征隐含因素抽取和刻画方法,其特征在于,包括:步骤A:获取用户使用情况的原始数据;步骤B:通过计算原始数据各项统计指标,设定用于筛选可以用于特征提取的原始数据的标准;步骤C:对于时序数据进行归一化处理和特征抽取,具体包括以下步骤:步骤C1:将数据转换为随时间变化的各站点利用率的时间序列;步骤C2:转换完毕的数据,对各站点的时间序列进行平滑;步骤C3:对平滑后的每个时刻的数据打上分类标签;步骤C4:以较大的时间长度为单位,将数据转换为长度为24小时的时序数据;步骤D:基于聚类算法进行隐含的特征表示,具体包括以下步骤步骤D1:对于抽取并完成数据转换的时间序列数据,采用聚类方法进行模式识别,得到具有明显特征的时序聚类中心;步骤D2:通过时序聚类中心来描绘各站点的使用行为;步骤E:基于隐含的特征表示,形成对使用行为的刻画;步骤E1:根据聚类结果,计算各站点的时间序列在各类别所占比例;步骤E2:将统计得到的比例以站点为单位组成向量,即是描述对应站点使用行为的隐含因素。

【技术特征摘要】
1.一种新能源使用行为的时序特征隐含因素抽取和刻画方法,其特征在于,包括:步骤A:获取用户使用情况的原始数据;步骤B:通过计算原始数据各项统计指标,设定用于筛选可以用于特征提取的原始数据的标准;步骤C:对于时序数据进行归一化处理和特征抽取,具体包括以下步骤:步骤C1:将数据转换为随时间变化的各站点利用率的时间序列;步骤C2:转换完毕的数据,对各站点的时间序列进行平滑;步骤C3:对平滑后的每个时刻的数据打上分类标签;步骤C4:以较大的时间长度为单位,将数据转换为长度为24小时的时序数据;步骤D:基于聚类算法进行隐含的特征表示,具体包括以下步骤步骤D1:对于抽取并完成数据转换的时间序列数据,采用聚类方法进行模式识别,得到具有明显特征的时序聚类中心;步骤D2:通过时序聚类中心来描绘各站点的使用行为;步骤E:基于隐含的特征表示,形成对使用行为的刻画;步骤E1:根据聚类结果,计算各站点的时间序列在各类别所占比例;步骤E2:将统计得到的比例以站点为单位组成向量,即是描述对应站点使用行为的隐含因素。2.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法,其特征在于,步骤B中,设定的标准是对记录丢失率为80%以上的站点数据进行筛去,再对剩余数据中的缺失值进行填补,通过均值、补零、回归方法。3.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法,其特征在于,步骤C1中,通过程序,可以批量的对数据进行计算和转换;所述程序流程为按时间戳依次扫描初步清洗后的数据,统计按小时、天、周等时间长度为单位的站点利用率情况,从而得到以某时间长度为基本单位的时间序列数据...

【专利技术属性】
技术研发人员:姚俊杰王江涛郭羽翟黄嘉祥
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1