【技术实现步骤摘要】
时序数据特征处理方法、装置及计算机可读存储介质
本专利技术涉及人工智能,具体地说,涉及一种时序数据特征处理方法、装置及计算机可读存储介质。
技术介绍
近年来基于海量数据的处理需求,以及多维度时序预测场景的需要,基于时序数据的特征工程已成为各研究机构科研热点。然而基于时序数据本身携带的时序特性使得对其进行的特征工程需要维系更多的信息保留需求,而特征工程处理得到的特征信息数据又在一定程度上决定了后续模型、算法预测的准确率等各方面评价指标的上限,因此基于时序数据的特征工程对整体模型的搭建和预测起到了至关重要的作用。
技术实现思路
为解决以上技术问题,本专利技术提供一种时序数据特征处理方法,应用于电子装置,结合K-MEANS聚类算法将时序数据进行聚类分析,形成多个聚集类;利用字典中预先设置的时序特征词在各个聚集类中搜索对比,如果搜索到与字典中的时序特征词一致的数据,则对对应的聚集类中的数据按照时序特征词进行统计,统计出各时序特征词对应的数据百分比;将各聚集类中的时序数据进行均值漂移聚类,进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类。优选地,K-Means聚类算法步 ...
【技术保护点】
1.一种时序数据特征处理方法,应用于电子装置,其特征在于:结合K‑MEANS聚类算法将时序数据进行聚类分析,形成多个聚集类;利用字典中预先设置的时序特征词在各个聚集类中搜索对比,如果搜索到与字典中的时序特征词一致的数据,则对对应的聚集类中的数据按照时序特征词进行统计,统计出各时序特征词对应的数据百分比;将各聚集类中的时序数据进行均值漂移聚类,进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类。
【技术特征摘要】
1.一种时序数据特征处理方法,应用于电子装置,其特征在于:结合K-MEANS聚类算法将时序数据进行聚类分析,形成多个聚集类;利用字典中预先设置的时序特征词在各个聚集类中搜索对比,如果搜索到与字典中的时序特征词一致的数据,则对对应的聚集类中的数据按照时序特征词进行统计,统计出各时序特征词对应的数据百分比;将各聚集类中的时序数据进行均值漂移聚类,进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类。2.根据权利要求1所述的时序数据特征处理方法,其特征在于,K-Means聚类算法步骤如下:(1)事先确定好聚集类的个数,并随机初始化各聚集类的中心点;(2)计算每个数据点到各中心点的距离,数据点距离哪个中心点最近就划分到哪个聚集类中;(3)全部数据点计算完成后,重新计算每个聚集类的中心点;(4)重复迭代以上步骤,直到每一聚集类的中心点在迭代后变化量小于变化阈值为止。3.根据权利要求1所述的时序数据特征处理方法,其特征在于,均值漂移聚类是基于滑动窗口的算法,通过将中心点更新为滑动窗口内点的均值来来定位每个聚集类的中心点,具体步骤如下:(1)以随机选取的中心点C、半径为r的圆形滑动窗口滑动,在每一次迭代中向数据密度更高的区域滑动,直到收敛;(2)每一次滑动到新的区域,计算滑动窗口内的均值作为中心点,滑动窗口内的点的数量为窗口内的密度;(3)滑动窗口,计算窗口内的中心点以及窗口内的密度,一直滑动到圆内密度不再增加为止;(4)当多个滑动窗口重叠时,保留包含最多点的窗口,然后根据数据点所在的滑动窗口进行聚类。4.根据权利要求1所述的时序数据特征处理方法,其特征在于,还对时序数据进行数据平滑处理,将t时刻的数据用t-k至t的平均值lt进行代替,N为时序数据l1,l2,…,lN的数量,其中k为给定的平滑间隔数。5.根据权利要求4所述的时序数据特征处理方法,其特征在于,将经过平滑处理的时序数据纵向排列为一列,以第n-1行数据替换第n...
【专利技术属性】
技术研发人员:陈娴娴,阮晓雯,徐亮,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。