一种基于Gower系数的多维度时空密度聚类方法技术

技术编号:23764524 阅读:283 留言:0更新日期:2020-04-11 19:08
本发明专利技术涉及一种基于Gower系数的多维度时空密度聚类方法,属于时空密度聚类技术领域。本发明专利技术先建立一个多维度时空信息数据库,每一条数据作为一个对象点。然后将数据进行算法的计算,大致步骤如下:1.从库中选取一个不在任何簇中的时空核心对象p

A multi-dimensional spatiotemporal density clustering method based on Gower coefficient

【技术实现步骤摘要】
一种基于Gower系数的多维度时空密度聚类方法
本专利技术涉及一种基于Gower系数的多维度时空密度聚类方法,属于时空数据聚类

技术介绍
Gower相似系数简称Gower系数,也称为Gower距离,是聚类分析中常用的一种分类度量标准。样本之间相似程度越高,其Gower系数越接近1;相似程度越低,其Gower系数越接近0;Gower系数相差不大的样本可以归为一类。基于Gower系数进行分类筛选的核心是计算样本之间的Gower系数。ST-DBSCAN算法是扩展了DBSCAN的扫描维度,采用时空邻近域的概念去评估时空邻近域内的时空实体的密度。因此,ST-DBSCAN与DBSCAN一样,也是基于密度的时空聚类分析方法,与一些聚类算法相比,它不需要预先决定簇的数量,并可以发现任何形状的簇。时空数据的挖掘随着科技的进步变得尤其重要,时空聚类算法也已广泛应用于道路交通、犯罪统计、降雨规律等多个领域,但还没用应用到职位发展趋势的分析领域中。
技术实现思路
本专利技术要解决的技术问题是一种基于Gower系数的多维度时空密度聚本文档来自技高网...

【技术保护点】
1.一种基于Gower系数的多维度时空密度聚类方法,其特征在于:包括如下步骤:/nStep1、建立一个多维度的时空信息数据库,库中数据地址的经度为x,纬度为y,数据发生时间为z,分类变量属性为X,一条信息数据为一个对象点p

【技术特征摘要】
1.一种基于Gower系数的多维度时空密度聚类方法,其特征在于:包括如下步骤:
Step1、建立一个多维度的时空信息数据库,库中数据地址的经度为x,纬度为y,数据发生时间为z,分类变量属性为X,一条信息数据为一个对象点pi(x,y,z,X),i为数据序号,所有对象的集合为D;
Step2、从D依次选取一个对象点pi(x,y,z,X),判断其是否已属于现有簇中,是则重新选取下一个对象点,否则进行下一步;
Step3、判断对象点pi(x,y,z,X)是否为时空核心对象,且是否满足Gower相似系数阈值,若两个条件同时满足则进行下一步,否则回到Step2中重新选取下一个对象点;
Step4、搜寻时空核心对象点pi(x,y,z,X)的所有时空相邻点qi,若qi不属于任何已有的簇,则将qi放入新建的簇A中,若qi属于已有的簇则不进行操作;
Step5、判断簇A中的各对象是否为时空核心对象,是则对该时空核心对象重复Step4的操作,否则将不再进行下一步操作;
Step6、重复上述步骤Step2到Step5的工作,直到D中所有对象都属于某个簇,或为时空孤立点;
Step7、将上述得到的簇标签赋值给职位数据库新建的字段“簇标签”中;
Step8、将数据库中所有对象的经度x、纬度y、时间z、簇标签分别展现到三维散点图对应点的横轴、纵轴、竖轴和点的颜色上,分类变量X展现到点的属性上;同时统计出不同簇中各个维度上值的数据量进行进一步的数据信息分析。


2.根据权利要求1所述的基于Gower系数的多维度时空密度聚类方法,其特征在于:所述步骤Step1中,三维的职位招聘数据库中每条职位信息都包含职位发布时间及就业地址的地理经度和纬度这三个字段,对象点pi(x,y,z,X)中的i为正整数。


3.根据权利要求1所述的基于Gower系数的多维度时空密度聚类方法,其特征在于:所述步骤Step2中,簇为聚类后点的集合,不属于任何一个簇的点为时空孤立点,即噪声。


4.根据权利要求1所述的基于Gower系数的多维度时空...

【专利技术属性】
技术研发人员:宋耀莲王慧东徐文林
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1