【技术实现步骤摘要】
一种关于非等长时间序列集合的中心计算方法
[0001]本申请涉及数据处理领域,尤其涉及一种关于非等长时间序列集合的中心计算方法。
技术介绍
[0002]聚类分析应用的领域相当广泛,聚类算法通过对比样本之间的相似性实现无监督分类。常用的方式是通过计算样本与中心之间的距离来发现数据彼此之间的相似性。因此,对于多数聚类算法,聚类中心的选择决定了聚类分析的准确性。
[0003]根据现有文献,聚类算法主要有基于层次的聚类、基于模型的聚类、基于划分的聚类、基于密度的聚类。目前的聚类算法可以实现等长序列的聚类和非等长序列的聚类。对于等长序列,可采用直接聚类的方法。在聚类过程中,首先选择聚类中心,聚类中心的选择方法被发现具有良好的性能。再利用距离函数作为评价指标实现聚类。
[0004]非等长序列的聚类通常采用间接聚类的方式。首先先将非等长序列映射到特征变量空间,这样就实现了非等长序列转换为等长序列的处理。再利用现有的等长序列聚类算法实现聚类分析。这种变换空间的处理方式规避了非等长序列中心的查找问题,但由于增加了空间变换,因此增加了的计算复杂度和计算时间,同时对特征变量的选择也有很高的要求。不同的应用依赖于使用不同的特征变量空间来表达特定的相似性。例如,金融数据分析和市场预测中的相似性与天气预报或医学中的相似性的解释不同,这反映在用于表达特征变量空间的选择上。为了克服这个问题,需要针对非等长序列直接聚类。
[0005]最近的研究结果表明,等长序列的聚类中心通常基于某种距离迭代确定,例如马氏距离、欧几里德距离和曼 ...
【技术保护点】
【技术特征摘要】
1.一种关于非等长时间序列集合的中心计算方法,其特征在于,包括:S1:获取待计算集合中心的至少包括两个不等长的时间序列的非等长时间序列集合,以及确定非等长时间序列集合中所有时间序列的序列长度;S2:计算非等长时间序列集合中所有时间序列的序列长度的平均值,以及根据序列长度的平均值,确定至少一个初始聚类中心序列;S3:根据非等长时间序列集合以及初始聚类中心序列,相应地确定相应于非等长时间序列集合的平均序列;S4:计算初始聚类中心序列与平均序列之间的欧氏距离,得到距离向量;S5:判断距离向量与预设的迭代误差之间的大小,如果距离向量小于预设的迭代误差,输出相应的初始聚类中心序列为集合中心,如果距离向量不小于预设的迭代误差,以平均序列更新成初始聚类中心序列,迭代执行步骤S3~S5,直至距离向量小于预设的迭代误差。2.根据权利要求1所述的关于非等长时间序列集合的中心计算方法,所述步骤S2包括:S21:根据非等长时间序列集合S
′
={s
i
′
}={s1′
,s2′
,
…
,s
p
′
}中所有时间序列s
i
′
的序列长度,计算所有时间序列s
i
′
的序列长度的平均值m
a
;计算序列长度的平均值m
a
的公式如下所示:式中,p表示非等长时间序列集合中的时间序列的数目;m
i
表示s
i
′
的序列长度,1≤i≤p;S22:分别计算时间序列的序列长度m
i
与序列长度的平均值m
a
之间的序列差值Δm;计算序列差值Am的公式如下所示:Δm=min(|m
a
‑
m
i
|);S23:确定与最小的序列差值Δm相对应的若干个时间序列s
i
′
并且在相对应的若干个时间序列s
i
′
中选取一个时间序列s
i
′
作为一个初始聚类中心序列s
ma
′
;m
q
表示初始聚类中心序列s
ma
′
的序列长度,1≤m
q
≤p。3.根据权利要求2所述的关于非等长时间序列集合的中心计算方法,所述步骤S3包括:S31:分别计算所有时间序列s
i
′
与初始聚类中心序列s
ma
′
之间的距离矩阵E
i
;S32:基于最小值路径规划的标准,在距离矩阵E
i
中确定相应于时间序列s
i
′
规划路径n表示规划路径所经过格点的数目;S33:根据规划路径确定初始聚类中心序列s
ma
′
相应于时间序列集合{s
i
′
}中每条时间序列的相似序列并且相应地确定包括所有相似序列的相似序列集合l={l
i
}={l1,l2,
…
,l
p
}(1≤i≤p);l
i
表示初始聚类中心序列s
ma
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。