【技术实现步骤摘要】
一种基于联邦学习的时空轨迹聚类方法
[0001]本专利技术涉及大数据挖掘
,具体涉及一种基于联邦学习的时空轨迹聚类方法
。
技术介绍
[0002]近些年,随着大数据技术的发展,以及计算机技术的进步,机器学习越来越受到关注,在推荐算法,智能驾驶,人机交互等多个方面都起到了重要的作用
。
但是由于机器学习和大数据行业的生长,以及实际环境中的复杂性,形成了数据总量极多,数据可用量少,数据质量差的情况
。
并且,由于受到安全性因素的影响,限制了数据的交流和分享,影响了大数据和机器学习技术的研究和应用,这种现象称为“数据孤岛”。
[0003]谷歌在
2016
年另辟蹊径,提出了联邦学习
(Federated Learning
,
FL)
的理念
。
简单地说,联邦学习要求参与学习的数据集不移动,而模型训练在拥有数据集的客户端上独立完成
。
之后由一个可信的虚拟中心收集客户端上训练好的模型,将模型聚合后再发送给客户端继续训练,循环往复最后生成一个可用的全局模型
。
这种计算向数据移动的方式,极大的避免了数据移动可能产生的安全风险
。
从侧面解决了大数据和机器学习领域中的“数据孤岛”问题,受到了越来越多的研究和关注
。
但是,在现实场景中,轨迹等数据的联邦学习具有局限性,带宽消耗和隐私问题都阻碍了这种类型的处理
。
技术实现思路
>[0004]本专利技术所要解决的技术问题是:提出一种基于联邦学习的时空轨迹聚类方法,节约通信带宽,并提高数据处理的隐私性
。
[0005]本专利技术解决上述技术问题采用的技术方案是:
[0006]一种基于联邦学习的时空轨迹聚类方法,应用于采用联邦学习架构的分布式系统,所述分布式系统包括服务器和多个客户端,该方法包括:
[0007]A、
客户端处理过程:
[0008]A1、
对客户端的本地轨迹,进行遍历采样,获得一组具有相同起点和终点的轨迹;
[0009]A2、
针对步骤
A1
采样获得的每一条轨迹,根据预设的间隔距离进行等距取点,获得其在轨迹空间中的轨迹点序列;
[0010]A3、
针对步骤
A1
采样获得的每一条轨迹,并根据步骤
A2
获得的各轨迹的轨迹点序列,采用样条函数进行分段拟合;
[0011]A4、
针对步骤
A1
采样获得的每一条轨迹,根据步骤
A3
的分段,将其各轨迹段的起止位置信息
、
起止时序信息以及对应样条函数的参数信息,按其所属轨迹和轨迹段进行编码,并发送至服务器;
[0012]B、
服务器处理过程:
[0013]B1、
服务器对接收到的信息进行解码,将属于相同轨迹的样条函数,根据样条函数的参数复原其所对应轨迹段,并根据对应轨迹段的起止位置信息和起止时序信息,顺序拼
接获得对应轨迹的复原轨迹;
[0014]B2、
对步骤
B1
获得的复原轨迹,进行聚类分析
。
[0015]进一步的,步骤
A2
中,还包括:
[0016]根据该客户端预设的差分隐私总预算
ε
以及各轨迹上的轨迹点数量,为各轨迹分配与其轨迹点数量等比例的轨迹差分隐私参数
ε
k
;所述
k
为轨迹的序号;
[0017]然后,针对每一条轨迹,分别进行如下加噪处理:
[0018]对该轨迹的轨迹空间进行首次网格划分,判定是否满足每个网格中至多有一个轨迹点;针对不满足判定的网格进行二次网格划分,并使其满足每个网格中至多有一个轨迹点;
[0019]基于该轨迹各轨迹点所对应网格,分配该轨迹各轨迹点的差分隐私预算,每个轨迹点的差分隐私预算与其所在网格的边长成反比;所述
i
为轨迹点的序号;
[0020]对该轨迹上各轨迹点,分别根据其差分隐私预算进行差分加噪
。
[0021]进一步的,步骤
A2
中,对该轨迹的轨迹空间进行首次网格划分,判定是否满足每个网格中至多有一个轨迹点;针对不满足判定的网格进行二次网格划分,并使其满足每个网格中至多有一个轨迹点,具体包括:
[0022]A21、
根据设定数值
N
,将整个轨迹空间划分为
N
×
N
的均匀网格,每个网格的网格等级均为并获得网格集合;
[0023]A22、
计算网格集合中每个网格的网格计数
[0024][0025]其中,
D
k
表示第
k
条轨迹,表示第
k
条轨迹上的第
i
个轨迹点,表示第
k
条轨迹所对应轨迹空间经网格划分所获得的第
n
个网格,表示第
k
条轨迹中位于网格范围内的轨迹点的数量,
|D
k
|
表示第
k
条轨迹的全部轨迹点数量;
[0026]A23、
遍历网格集合中每个网格的网格计数,判定其是否达到判定条件,所述判定条件为:网格的网格计数为0或者
1/|D
k
|
;并针对未满足判定条件的网格,执行步骤
A24
;
[0027]A24、
按如下公式计算对应网格的二次划分参数
M
:
[0028][0029]其中,
β
为预定义的网格常数,为二次划分前该网格的网格计数,为上取整函数;
[0030]根据二次划分参数
M
,将对应网格二次划分为
M
×
M
的均匀子网格,并根据二次划分所获得的网格,对网格集合进行更新;子网格的网格等级设定为
[0031]A25、
循环执行步骤
A23
‑
A24
,直至完成遍历
。
[0032]进一步的,步骤
A21
中,所述
N
设置为
len(D
k
)/R
,其中,
R
为步骤
A2
进行轨迹点采样
的间隔长度,
len(D
k
)
表示第
k
条轨迹的长度
。
[0033]进一步的,步骤
A24
中,所述
β
为
80/
ε
k
,
ε
k
是第
k
条轨迹的隐私预算
...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于联邦学习的时空轨迹聚类方法,应用于采用联邦学习架构的分布式系统,所述分布式系统包括服务器和多个客户端,其特征在于,该方法包括:
A、
客户端处理过程:
A1、
对客户端的本地轨迹,进行遍历采样,获得一组具有相同起点和终点的轨迹;
A2、
针对步骤
A1
采样获得的每一条轨迹,根据预设的间隔距离进行等距取点,获得其在轨迹空间中的轨迹点序列;
A3、
针对步骤
A1
采样获得的每一条轨迹,并根据步骤
A2
获得的各轨迹的轨迹点序列,采用样条函数进行分段拟合;
A4、
针对步骤
A1
采样获得的每一条轨迹,根据步骤
A3
的分段,将其各轨迹段的起止位置信息
、
起止时序信息以及对应样条函数的参数信息,按其所属轨迹和轨迹段进行编码,并发送至服务器;
B、
服务器处理过程:
B1、
服务器对接收到的信息进行解码,将属于相同轨迹的样条函数,根据样条函数的参数复原其所对应轨迹段,并根据对应轨迹段的起止位置信息和起止时序信息,顺序拼接获得对应轨迹的复原轨迹;
B2、
对步骤
B1
获得的复原轨迹,进行聚类分析
。2.
如权利要求1所述的一种基于联邦学习的时空轨迹聚类方法,其特征在于,步骤
A2
中,还包括:根据该客户端预设的差分隐私总预算
ε
以及各轨迹上的轨迹点数量,为各轨迹分配与其轨迹点数量等比例的轨迹差分隐私参数
ε
k
;所述
k
为轨迹的序号;然后,针对每一条轨迹,分别进行如下加噪处理:对该轨迹的轨迹空间进行首次网格划分,判定是否满足每个网格中至多有一个轨迹点;针对不满足判定的网格进行二次网格划分,并使其满足每个网格中至多有一个轨迹点;基于该轨迹各轨迹点所对应网格,分配该轨迹各轨迹点的差分隐私预算,每个轨迹点的差分隐私预算与其所在网格的边长成反比;所述
i
为轨迹点的序号;对该轨迹上各轨迹点,分别根据其差分隐私预算进行差分加噪
。3.
如权利要求2所述的一种基于联邦学习的时空轨迹聚类方法,其特征在于,步骤
A2
中,对该轨迹的轨迹空间进行首次网格划分,判定是否满足每个网格中至多有一个轨迹点;针对不满足判定的网格进行二次网格划分,并使其满足每个网格中至多有一个轨迹点,具体包括:
A21、
根据设定数值
N
,将整个轨迹空间划分为
N
×
N
的均匀网格,每个网格的网格等级均为并获得网格集合;
A22、
计算网格集合中每个网格的网格计数的网格计数其中,
D
k
表示第
k
条轨迹,表示第
k
条轨迹上的第
i
个轨迹点,表示第
k
条轨迹所对应
轨迹空间经网格划分所获得的第
n
个网格,表示第
k
条轨迹中位于网格范围内的轨迹点的数量,
|D
k
|
表示第
k
条轨迹的全部轨迹点数量;
A23、
遍历网格集合中每个网格的网格计数,判定其是否达到判定条件,所述判定条件为:网格的网格计数为0或者
1/|D
k
|
;并针对未满足判定条件的网格,执行步骤
A24
;
A24、
按如下公式计算对应网格的二次划分参数
M
:其中,
β
为预定义的网格常数,为二次划分前该网格的网格计数,为上取整函数;根据二次划分参数
M
,将对应网格二次划分为
M
×
M
的均匀子网格,并根据二次划分所获得的网格,对网格集合进行更新;子网格的网格等级设定为
A25、
循环执行步骤
A23
‑
A24
,直至完成遍历
。4.
如权利要求3所述的一种基于联邦学习的时空轨迹聚类方法,其特征在于,步骤
A21
中,所述
N
设置为
len(D
k
)/R
,其中,
R
为步骤
A2
进行轨迹点采样的间隔长度,
len(D
k
)
表示第
k
条轨迹的长度
。5.
如权利要求3所述的一种基于联邦学习的时空轨迹聚类方法,其特征在于,步骤
A24
中,所述
β
为
技术研发人员:陈爱国,罗光春,付波,詹思瑜,王智镜,王天孜,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。