【技术实现步骤摘要】
一种基于马尔科夫链的跨地理分布轨迹聚类方法
本专利技术涉及分布式数据挖掘技术,特别涉及有数据隐私保护和网络带宽压缩要求的分布式轨迹聚类技术。
技术介绍
随着大数据时代的来临,数据规模增长迅猛,如何从大规模数据中挖掘出有价值的信息成为众多企业和机构需要思考的问题。聚类算法作为一种数据挖掘技术已被专业人员广泛地应用,聚类算法能够将大量无标签的数据划分成若干个簇,簇中的元素共同包含着某种隐性的特征。在移动互联网时代,用户轨迹数据快速积累,通过对时空轨迹数据的聚类分析,我们可以发现用户的行为模式,或筛选出异常的轨迹数据等等;聚类算法输入的数据是无标签的,在机器学习中属于无监督学习中的一种。目前针对分布式聚类算法的研究已经取得了一些成果,一部分研究方法是以数据聚合为前提的,这类方法首先需要将分布式中的数据集合在一起,然后以特定的方式将数据集划分给各个属地节点以提高聚类准确度和计算高效性,这类方法在聚类准确度上和数据集中式聚类相当,但是由于需要原始数据在网络中传输,这使得该算法在很多需要考虑数据隐私性的场景下变得不适用; ...
【技术保护点】
1.一种基于马尔科夫链的跨地理分布轨迹聚类方法,其特征在于,包括以下步骤:/nS1属地轨迹预处理步骤:属地节点对属地轨迹数据进行预处理操作,将属地轨迹数据集划分成若干个轨迹子簇,并对每一个轨迹子簇进行网格化操作,使得轨迹子簇中所有轨迹坐标均通过网格空间中网格空间点表示;最后将网格化处理后的轨迹子簇进行网格坐标填充;/nS2属地轨迹生成模型估计:属地节点利用预处理后的轨迹子簇集合模拟轨迹数据生成模型,具体步骤如下:/nS21:将预处理后的轨迹子簇集合中所有轨迹经过的网格空间点转换至马尔科夫链模型中的状态空间,形成状态集合;网格空间中轨迹的交叉点和截止点之外的轨迹点均一一对应马 ...
【技术特征摘要】
1.一种基于马尔科夫链的跨地理分布轨迹聚类方法,其特征在于,包括以下步骤:
S1属地轨迹预处理步骤:属地节点对属地轨迹数据进行预处理操作,将属地轨迹数据集划分成若干个轨迹子簇,并对每一个轨迹子簇进行网格化操作,使得轨迹子簇中所有轨迹坐标均通过网格空间中网格空间点表示;最后将网格化处理后的轨迹子簇进行网格坐标填充;
S2属地轨迹生成模型估计:属地节点利用预处理后的轨迹子簇集合模拟轨迹数据生成模型,具体步骤如下:
S21:将预处理后的轨迹子簇集合中所有轨迹经过的网格空间点转换至马尔科夫链模型中的状态空间,形成状态集合;网格空间中轨迹的交叉点和截止点之外的轨迹点均一一对应马尔科夫链模型中的一个状态,网格空间中轨迹的交叉点和截止点对应马尔科夫链模型中的2个以上状态;
S22:利用轨迹子簇的中的状态集合训练该轨迹子簇对应的马尔科夫链模型,得到马尔科夫链模型对应的转移矩阵;
S23:属地节点将本地的转移矩阵和状态集合发送至中心节点;
S3:综合求解步骤:中心节点利用各个属地节点传递的转移矩阵和状态集合实现全局轨迹的聚类操作得到簇心集合并发送至各属地节点。
2.如权利要求1所述方法,其特征在于,步骤S21中将网格空间点转换至马尔科夫链模型中的状态空间的映射规则包括:
(1)单条轨迹中的坐标点既不是轨迹交叉点,也不是轨迹截止点,则该网格空间点与状态空间中的状态是一一映射;
(2)针对单条轨迹,若轨迹中的坐标点(x,y)是轨迹交叉点或轨迹截止点,则将该网格空间点映射成状态空间中的M个状态:
M=mcross+mend
其中,mcross表示网格空间点下一个可能转移到的网格空间点数量,取值范围2-4,mend表示该网格空间点是否为轨迹截止点,如果是截止点其值取1,否则其值取0。
3.如权利要求1所述方法,其特征在于,步骤S3中心节点得到簇心集合的具体步骤如下:
S31:中心节点利用各属地节点传递的转移矩阵和状态集合生成全局轨迹数据集;
S32:计算全局轨迹数据集中轨迹间的距离度量,再基于轨迹间的距离度量使用kmedios聚类算法对全局轨迹数据集进行聚类操作得到簇心集合。
4.如权利要求2所述方法,其特征在于,S31中全局轨迹数据集的具体生成方法如下:
1)初始化第i条轨迹序列Li,按照状态初始分布产生状态s,将该状态对应的网格空间点加入轨迹序列Li;
2)若状态s不是截止状态,则依据转移矩阵得到状态s转移至其他状态的概率分布P,依据此概率分布随机产生新的状态s’,将s’加入轨迹序列Li,利用s’更新s;
若状态s是截止状态,判断此时轨迹序列长度是否在对应子簇轨...
【专利技术属性】
技术研发人员:陈爱国,罗光春,赵太银,田玲,陈远帆,王国安,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。