一种基于联邦学习的时空轨迹聚类方法技术

技术编号:39405881 阅读:11 留言:0更新日期:2023-11-19 15:58
本发明专利技术涉及大数据挖掘技术领域,其公开了一种基于联邦学习的时空轨迹聚类方法,节约通信带宽,并提高数据处理的隐私性

【技术实现步骤摘要】
一种基于联邦学习的时空轨迹聚类方法


[0001]本专利技术涉及大数据挖掘
,具体涉及一种基于联邦学习的时空轨迹聚类方法


技术介绍

[0002]近些年,随着大数据技术的发展,以及计算机技术的进步,机器学习越来越受到关注,在推荐算法,智能驾驶,人机交互等多个方面都起到了重要的作用

但是由于机器学习和大数据行业的生长,以及实际环境中的复杂性,形成了数据总量极多,数据可用量少,数据质量差的情况

并且,由于受到安全性因素的影响,限制了数据的交流和分享,影响了大数据和机器学习技术的研究和应用,这种现象称为“数据孤岛”。
[0003]谷歌在
2016
年另辟蹊径,提出了联邦学习
(Federated Learning

FL)
的理念

简单地说,联邦学习要求参与学习的数据集不移动,而模型训练在拥有数据集的客户端上独立完成

之后由一个可信的虚拟中心收集客户端上训练好的模型,将模型聚合后再发送给客户端继续训练,循环往复最后生成一个可用的全局模型

这种计算向数据移动的方式,极大的避免了数据移动可能产生的安全风险

从侧面解决了大数据和机器学习领域中的“数据孤岛”问题,受到了越来越多的研究和关注

但是,在现实场景中,轨迹等数据的联邦学习具有局限性,带宽消耗和隐私问题都阻碍了这种类型的处理


技术实现思路

>[0004]本专利技术所要解决的技术问题是:提出一种基于联邦学习的时空轨迹聚类方法,节约通信带宽,并提高数据处理的隐私性

[0005]本专利技术解决上述技术问题采用的技术方案是:
[0006]一种基于联邦学习的时空轨迹聚类方法,应用于采用联邦学习架构的分布式系统,所述分布式系统包括服务器和多个客户端,该方法包括:
[0007]A、
客户端处理过程:
[0008]A1、
对客户端的本地轨迹,进行遍历采样,获得一组具有相同起点和终点的轨迹;
[0009]A2、
针对步骤
A1
采样获得的每一条轨迹,根据预设的间隔距离进行等距取点,获得其在轨迹空间中的轨迹点序列;
[0010]A3、
针对步骤
A1
采样获得的每一条轨迹,并根据步骤
A2
获得的各轨迹的轨迹点序列,采用样条函数进行分段拟合;
[0011]A4、
针对步骤
A1
采样获得的每一条轨迹,根据步骤
A3
的分段,将其各轨迹段的起止位置信息

起止时序信息以及对应样条函数的参数信息,按其所属轨迹和轨迹段进行编码,并发送至服务器;
[0012]B、
服务器处理过程:
[0013]B1、
服务器对接收到的信息进行解码,将属于相同轨迹的样条函数,根据样条函数的参数复原其所对应轨迹段,并根据对应轨迹段的起止位置信息和起止时序信息,顺序拼
接获得对应轨迹的复原轨迹;
[0014]B2、
对步骤
B1
获得的复原轨迹,进行聚类分析

[0015]进一步的,步骤
A2
中,还包括:
[0016]根据该客户端预设的差分隐私总预算
ε
以及各轨迹上的轨迹点数量,为各轨迹分配与其轨迹点数量等比例的轨迹差分隐私参数
ε
k
;所述
k
为轨迹的序号;
[0017]然后,针对每一条轨迹,分别进行如下加噪处理:
[0018]对该轨迹的轨迹空间进行首次网格划分,判定是否满足每个网格中至多有一个轨迹点;针对不满足判定的网格进行二次网格划分,并使其满足每个网格中至多有一个轨迹点;
[0019]基于该轨迹各轨迹点所对应网格,分配该轨迹各轨迹点的差分隐私预算,每个轨迹点的差分隐私预算与其所在网格的边长成反比;所述
i
为轨迹点的序号;
[0020]对该轨迹上各轨迹点,分别根据其差分隐私预算进行差分加噪

[0021]进一步的,步骤
A2
中,对该轨迹的轨迹空间进行首次网格划分,判定是否满足每个网格中至多有一个轨迹点;针对不满足判定的网格进行二次网格划分,并使其满足每个网格中至多有一个轨迹点,具体包括:
[0022]A21、
根据设定数值
N
,将整个轨迹空间划分为
N
×
N
的均匀网格,每个网格的网格等级均为并获得网格集合;
[0023]A22、
计算网格集合中每个网格的网格计数
[0024][0025]其中,
D
k
表示第
k
条轨迹,表示第
k
条轨迹上的第
i
个轨迹点,表示第
k
条轨迹所对应轨迹空间经网格划分所获得的第
n
个网格,表示第
k
条轨迹中位于网格范围内的轨迹点的数量,
|D
k
|
表示第
k
条轨迹的全部轨迹点数量;
[0026]A23、
遍历网格集合中每个网格的网格计数,判定其是否达到判定条件,所述判定条件为:网格的网格计数为0或者
1/|D
k
|
;并针对未满足判定条件的网格,执行步骤
A24

[0027]A24、
按如下公式计算对应网格的二次划分参数
M

[0028][0029]其中,
β
为预定义的网格常数,为二次划分前该网格的网格计数,为上取整函数;
[0030]根据二次划分参数
M
,将对应网格二次划分为
M
×
M
的均匀子网格,并根据二次划分所获得的网格,对网格集合进行更新;子网格的网格等级设定为
[0031]A25、
循环执行步骤
A23

A24
,直至完成遍历

[0032]进一步的,步骤
A21
中,所述
N
设置为
len(D
k
)/R
,其中,
R
为步骤
A2
进行轨迹点采样
的间隔长度,
len(D
k
)
表示第
k
条轨迹的长度

[0033]进一步的,步骤
A24
中,所述
β

80/
ε
k

ε
k
是第
k
条轨迹的隐私预算...

【技术保护点】

【技术特征摘要】
1.
一种基于联邦学习的时空轨迹聚类方法,应用于采用联邦学习架构的分布式系统,所述分布式系统包括服务器和多个客户端,其特征在于,该方法包括:
A、
客户端处理过程:
A1、
对客户端的本地轨迹,进行遍历采样,获得一组具有相同起点和终点的轨迹;
A2、
针对步骤
A1
采样获得的每一条轨迹,根据预设的间隔距离进行等距取点,获得其在轨迹空间中的轨迹点序列;
A3、
针对步骤
A1
采样获得的每一条轨迹,并根据步骤
A2
获得的各轨迹的轨迹点序列,采用样条函数进行分段拟合;
A4、
针对步骤
A1
采样获得的每一条轨迹,根据步骤
A3
的分段,将其各轨迹段的起止位置信息

起止时序信息以及对应样条函数的参数信息,按其所属轨迹和轨迹段进行编码,并发送至服务器;
B、
服务器处理过程:
B1、
服务器对接收到的信息进行解码,将属于相同轨迹的样条函数,根据样条函数的参数复原其所对应轨迹段,并根据对应轨迹段的起止位置信息和起止时序信息,顺序拼接获得对应轨迹的复原轨迹;
B2、
对步骤
B1
获得的复原轨迹,进行聚类分析
。2.
如权利要求1所述的一种基于联邦学习的时空轨迹聚类方法,其特征在于,步骤
A2
中,还包括:根据该客户端预设的差分隐私总预算
ε
以及各轨迹上的轨迹点数量,为各轨迹分配与其轨迹点数量等比例的轨迹差分隐私参数
ε
k
;所述
k
为轨迹的序号;然后,针对每一条轨迹,分别进行如下加噪处理:对该轨迹的轨迹空间进行首次网格划分,判定是否满足每个网格中至多有一个轨迹点;针对不满足判定的网格进行二次网格划分,并使其满足每个网格中至多有一个轨迹点;基于该轨迹各轨迹点所对应网格,分配该轨迹各轨迹点的差分隐私预算,每个轨迹点的差分隐私预算与其所在网格的边长成反比;所述
i
为轨迹点的序号;对该轨迹上各轨迹点,分别根据其差分隐私预算进行差分加噪
。3.
如权利要求2所述的一种基于联邦学习的时空轨迹聚类方法,其特征在于,步骤
A2
中,对该轨迹的轨迹空间进行首次网格划分,判定是否满足每个网格中至多有一个轨迹点;针对不满足判定的网格进行二次网格划分,并使其满足每个网格中至多有一个轨迹点,具体包括:
A21、
根据设定数值
N
,将整个轨迹空间划分为
N
×
N
的均匀网格,每个网格的网格等级均为并获得网格集合;
A22、
计算网格集合中每个网格的网格计数的网格计数其中,
D
k
表示第
k
条轨迹,表示第
k
条轨迹上的第
i
个轨迹点,表示第
k
条轨迹所对应
轨迹空间经网格划分所获得的第
n
个网格,表示第
k
条轨迹中位于网格范围内的轨迹点的数量,
|D
k
|
表示第
k
条轨迹的全部轨迹点数量;
A23、
遍历网格集合中每个网格的网格计数,判定其是否达到判定条件,所述判定条件为:网格的网格计数为0或者
1/|D
k
|
;并针对未满足判定条件的网格,执行步骤
A24

A24、
按如下公式计算对应网格的二次划分参数
M
:其中,
β
为预定义的网格常数,为二次划分前该网格的网格计数,为上取整函数;根据二次划分参数
M
,将对应网格二次划分为
M
×
M
的均匀子网格,并根据二次划分所获得的网格,对网格集合进行更新;子网格的网格等级设定为
A25、
循环执行步骤
A23

A24
,直至完成遍历
。4.
如权利要求3所述的一种基于联邦学习的时空轨迹聚类方法,其特征在于,步骤
A21
中,所述
N
设置为
len(D
k
)/R
,其中,
R
为步骤
A2
进行轨迹点采样的间隔长度,
len(D
k
)
表示第
k
条轨迹的长度
。5.
如权利要求3所述的一种基于联邦学习的时空轨迹聚类方法,其特征在于,步骤
A24
中,所述
β

【专利技术属性】
技术研发人员:陈爱国罗光春付波詹思瑜王智镜王天孜
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1