一种基于流式计算的关联性大数据聚类方法及装置制造方法及图纸

技术编号:38137768 阅读:20 留言:0更新日期:2023-07-08 09:50
本发明专利技术涉及流式计算技术领域,揭露了一种基于流式计算的关联性大数据聚类方法及装置,包括:根据时间戳及表征数据项生成预设流式数据的数据元组;根据向量元组对流式数据进行粗聚类,得到粗聚数据集;计算划分粗聚数据集中每个粗聚子集的第一中心位置;逐一计算实时流式数据与第一中心位置的聚类距离,根据聚类距离对实时流式数据进行细聚类,得到细聚数据集,对细聚数据集进行时间标识,得到标识细聚数据集;根据标识细聚数据集确定细聚数据集的第二中心位置,以及根据标识细聚数据集确定细聚数据集中的数据元组数量,根据第二中心位置及数据元组数量对关联性大数据进行聚类。本发明专利技术可以提高关联性大数据聚类精确度。明可以提高关联性大数据聚类精确度。明可以提高关联性大数据聚类精确度。

【技术实现步骤摘要】
一种基于流式计算的关联性大数据聚类方法及装置


[0001]本专利技术涉及流式计算
,尤其涉及一种基于流式计算的关联性大数据聚类方法及装置。

技术介绍

[0002]随着网络与信息技术的发展,数据的表现形式不再只是文件、数据库等静态形式。实时流式数据的出现保证了数据写入的连贯性与完整性,大大提高了信息写入效率,但为了对实时流式数据进行高质量、高效率的聚类,需要对数据进行多次迭代分析,以进行大数据聚类。
[0003]现有的关联性大数据聚类技术为先存储流式数据再利用聚类算法对流式数据进行聚类。实际应用中,流式数据是实时动态产生的,仅考虑静态存储流式数据通过聚类算法对数据进行聚类,可能导致对数据聚类方式过于单一,从而对进行关联性大数据聚类时的精确度较低。

技术实现思路

[0004]本专利技术提供一种基于流式计算的关联性大数据聚类方法及装置,其主要目的在于解决进行关联性大数据聚类时的精确度较低的问题。
[0005]为实现上述目的,本专利技术提供的一种基于流式计算的关联性大数据聚类方法,包括:
[0006]S1、获取预设的流式数据,根据预设的时间戳及预设的表征数据项生成所述流式数据的数据元组;
[0007]S2、对所述数据元组进行向量转换,得到向量元组,利用预设的实时粗聚类算法根据所述向量元组对所述流式数据进行粗聚类,得到粗聚数据集;
[0008]S3、对所述粗聚数据集进行子集划分,得到划分粗聚数据集,利用预设的中心算法计算所述划分粗聚数据集中每个粗聚子集的第一中心位置
[0009]S4、逐一计算预设的实时流式数据与所述第一中心位置的聚类距离,利用预设的聚类算法根据所述聚类距离对所述实时流式数据进行细聚类,得到细聚数据集,对所述细聚数据集进行时间标识,得到标识细聚数据集,其中所述逐一计算预设的实时流式数据与所述第一中心位置的聚类距离,包括:
[0010]S41、对所述预设的实时流式数据进行向量转换,得到实时数据向量;
[0011]S42、将所述实时数据向量的向量维度进行统一化,得到统一实时数据向量;
[0012]S43、利用如下的距离公式逐一计算所述统一实时数据向量与所述第一中心位置之间的聚类距离:
[0013][0014]其中,D
uv
为第u个统一实时数据向量与第v个第一中心位置之间的聚类距离,x
u

第u个所述统一实时数据向量的横坐标,y
u
第u个所述统一实时数据向量的纵坐标,x
v
为第v个第一中心位置的横坐标,y
v
为第v个第一中心位置的纵坐标,m为所述统一实时数据向量的数量,k为所述第一中心位置的数量;
[0015]S5、根据所述标识细聚数据集确定所述细聚数据集的第二中心位置,以及根据所述标识细聚数据集确定所述细聚数据集中的数据元组数量,根据所述第二中心位置及所述数据元组数量对关联性大数据进行聚类。
[0016]可选地,所述根据预设的时间戳及预设的表征数据项生成所述流式数据的数据元组,包括:
[0017]根据所述表征数据项确定所述流式数据对应的数据项字段;
[0018]根据所述时间戳及所述数据项字段生成所述流式数据的数据元组,其中所述数据元组为:
[0019]tuple(t)=<p1(t),p2(t),

,p
n
(t)>
[0020]其中,tuple(t)为时间戳为t的数据元组,p
n
(t)为时间戳为t时第n个数据项字段。
[0021]可选地,所述利用预设的实时粗聚类算法根据所述向量元组对所述流式数据进行粗聚类,得到粗聚数据集,包括:
[0022]获取预设的第一距离阈值及预设的第二距离阈值;
[0023]任一选取所述向量元组为目标中心点,计算所述目标中心点与预设的目标集合之间的目标距离;
[0024]当所述目标距离小于所述第一距离阈值时,添加所述目标中心点至所述目标集合中,当所述目标距离小于所述第二距离阈值时,删除所述目标中心点;
[0025]当存在所述向量元组时,返回至所述任一选取所述向量元组为目标中心点的步骤,直至未存在所述向量元组;
[0026]当未存在所述向量元组时,利用所述实时粗聚类算法根据所述目标集合生成所述粗聚数据集。
[0027]可选地,所述获取预设的第一距离阈值及预设的第二距离阈值,包括:
[0028]获取所述向量元组中最大维数值及最小维数值;
[0029]根据所述最大维数值及所述最小维数值计算维数标准差;
[0030]利用如下的距离阈值计算公式根据所述最大维数值、所述最小维数值及所述维数标准差计算所述第一距离阈值:
[0031][0032]其中,T1为所述第一距离阈值,max
P
为所述向量元组中P维所述最大维数值,min
p
为所述向量元组中P维所述最小维数值,s
P
为所述向量元组中P维所述维数标准差,n为维数,u1为第一距离权重系数;
[0033]根据所述第一距离阈值确定所述第二距离阈值,其中所述第二距离阈值为:
[0034]T2=u2T1[0035]其中,T2为所述第二距离阈值,T1为所述第一距离阈值,u2为第二距离权重系数。
[0036]可选地,所述对所述粗聚数据集进行子集划分,得到划分粗聚数据集,包括:
[0037]利用预设的滑动窗口将所述粗聚数据集进行划分,得到初始划分数据集;
[0038]提取所述初始划分数据集中每个数据元组的流入时间点及流出时间点;
[0039]根据所述流入时间点及所述流出时间点计算所述滑动窗口的平均滑动时间,根据所述平均滑动时间对所述滑动窗口进行更新,得到更新滑动窗口;
[0040]根据所述更新滑动窗口对所述初始划分数据集进行划分更新,得到所述划分粗聚数据集。
[0041]可选地,所述利用预设的中心算法计算所述划分粗聚数据集中每个粗聚子集的第一中心位置,包括:
[0042]任一选取所述粗聚子集中的数据元组作为初始聚类中心;
[0043]计算未被选取的数据元组与所述初始聚类中心之间的相似度;
[0044]按照所述相似度将所述数据元组划分至所述初始聚类中心对应的聚类集合中,计算所述聚类集合中所有数据元组的聚类均值;
[0045]利用所述中心算法根据所述聚类均值计算所述每个粗聚子集的第一中心位置,其中所述中心算法为:
[0046][0047]其中,h
i
为第i个粗聚子集的第一中心位置,F
i
为第i个粗聚子集中的关联特征,m
i
为第i个粗聚子集的聚类均值。
[0048]可选地,所述对所述细聚数据集进行时间标识,得到标识细聚数据集,包括:
[0049]利用如下的时间公式计算所述细聚数据集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于流式计算的关联性大数据聚类方法,其特征在于,所述方法包括:S1、获取预设的流式数据,根据预设的时间戳及预设的表征数据项生成所述流式数据的数据元组;S2、对所述数据元组进行向量转换,得到向量元组,利用预设的实时粗聚类算法根据所述向量元组对所述流式数据进行粗聚类,得到粗聚数据集;S3、对所述粗聚数据集进行子集划分,得到划分粗聚数据集,利用预设的中心算法计算所述划分粗聚数据集中每个粗聚子集的第一中心位置;S4、逐一计算预设的实时流式数据与所述第一中心位置的聚类距离,利用预设的聚类算法根据所述聚类距离对所述实时流式数据进行细聚类,得到细聚数据集,对所述细聚数据集进行时间标识,得到标识细聚数据集,其中所述逐一计算预设的实时流式数据与所述第一中心位置的聚类距离,包括:S41、对所述预设的实时流式数据进行向量转换,得到实时数据向量;S42、将所述实时数据向量的向量维度进行统一化,得到统一实时数据向量;S43、利用如下的距离公式逐一计算所述统一实时数据向量与所述第一中心位置之间的聚类距离:其中,D
uv
为第u个统一实时数据向量与第v个第一中心位置之间的聚类距离,x
u
为第u个所述统一实时数据向量的横坐标,y
u
第u个所述统一实时数据向量的纵坐标,x
v
为第v个第一中心位置的横坐标,y
v
为第v个第一中心位置的纵坐标,m为所述统一实时数据向量的数量,k为所述第一中心位置的数量;S5、根据所述标识细聚数据集确定所述细聚数据集的第二中心位置,以及根据所述标识细聚数据集确定所述细聚数据集中的数据元组数量,根据所述第二中心位置及所述数据元组数量对关联性大数据进行聚类。2.如权利要求1所述的基于流式计算的关联性大数据聚类方法,其特征在于,所述根据预设的时间戳及预设的表征数据项生成所述流式数据的数据元组,包括:根据所述表征数据项确定所述流式数据对应的数据项字段;根据所述时间戳及所述数据项字段生成所述流式数据的数据元组,其中所述数据元组为:tuple(t)=<p1(t),p2(t),

,p
n
(t)>其中,tuple(t)为时间戳为t的数据元组,p
n
(t)为时间戳为t时第n个数据项字段。3.如权利要求1所述的基于流式计算的关联性大数据聚类方法,其特征在于,所述利用预设的实时粗聚类算法根据所述向量元组对所述流式数据进行粗聚类,得到粗聚数据集,包括:获取预设的第一距离阈值及预设的第二距离阈值;任一选取所述向量元组为目标中心点,计算所述目标中心点与预设的目标集合之间的目标距离;当所述目标距离小于所述第一距离阈值时,添加所述目标中心点至所述目标集合中,
当所述目标距离小于所述第二距离阈值时,删除所述目标中心点;当存在所述向量元组时,返回至所述任一选取所述向量元组为目标中心点的步骤,直至未存在所述向量元组;当未存在所述向量元组时,利用所述实时粗聚类算法根据所述目标集合生成所述粗聚数据集。4.如权利要求3所述的基于流式计算的关联性大数据聚类方法,其特征在于,所述获取预设的第一距离阈值及预设的第二距离阈值,包括:获取所述向量元组中最大维数值及最小维数值;根据所述最大维数值及所述最小维数值计算维数标准差;利用如下的距离阈值计算公式根据所述最大维数值、所述最小维数值及所述维数标准差计算所述第一距离阈值:其中,T1为所述第一距离阈值,max
P
为所述向量元组中P维所述最大维数值,min
p
为所述向量元组中P维所述最小维数值,s
P
为所述向量元组中P维所述维数标准差,n为维数,u1为第一距离权重系数;根据所述第一距离阈值确定所述第二距离阈值,其中所述第二距离阈值为:T2=u2T1其中,T2为所述第二距离阈值,T1为所述第一距离阈值,u2为第二距离权重系数。5.如权利要求1所述的基于流式计...

【专利技术属性】
技术研发人员:李佳刘晓蕾
申请(专利权)人:遥相科技发展北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1