一种基于联邦学习的时空轨迹聚类方法技术

技术编号：39405881 阅读：11 留言：0更新日期：2023-11-19 15:58

本发明专利技术涉及大数据挖掘技术领域，其公开了一种基于联邦学习的时空轨迹聚类方法，节约通信带宽，并提高数据处理的隐私性

全部详细技术资料下载

【技术实现步骤摘要】
一种基于联邦学习的时空轨迹聚类方法

[0001]本专利技术涉及大数据挖掘
，具体涉及一种基于联邦学习的时空轨迹聚类方法
。

技术介绍

[0002]近些年，随着大数据技术的发展，以及计算机技术的进步，机器学习越来越受到关注，在推荐算法，智能驾驶，人机交互等多个方面都起到了重要的作用
。
但是由于机器学习和大数据行业的生长，以及实际环境中的复杂性，形成了数据总量极多，数据可用量少，数据质量差的情况
。
并且，由于受到安全性因素的影响，限制了数据的交流和分享，影响了大数据和机器学习技术的研究和应用，这种现象称为“数据孤岛”。
[0003]谷歌在
2016
年另辟蹊径，提出了联邦学习
(Federated Learning
，
FL)
的理念
。
简单地说，联邦学习要求参与学习的数据集不移动，而模型训练在拥有数据集的客户端上独立完成
。
之后由一个可信的虚拟中心收集客户端上训练好的模型，将模型聚合后再发送给客户端继续训练，循环往复最后生成一个可用的全局模型
。
这种计算向数据移动的方式，极大的避免了数据移动可能产生的安全风险
。
从侧面解决了大数据和机器学习领域中的“数据孤岛”问题，受到了越来越多的研究和关注
。
但是，在现实场景中，轨迹等数据的联邦学习具有局限性，带宽消耗和隐私问题都阻碍了这种类型的处理
。

技术实现思路

>[0004]本专利技术所要解决的技术问题是：提出一种基于联邦学习的时空轨迹聚类方法，节约通信带宽，并提高数据处理的隐私性
。
[0005]本专利技术解决上述技术问题采用的技术方案是：
[0006]一种基于联邦学习的时空轨迹聚类方法，应用于采用联邦学习架构的分布式系统，所述分布式系统包括服务器和多个客户端，该方法包括：
[0007]A、
客户端处理过程：
[0008]A1、
对客户端的本地轨迹，进行遍历采样，获得一组具有相同起点和终点的轨迹；
[0009]A2、
针对步骤
A1
采样获得的每一条轨迹，根据预设的间隔距离进行等距取点，获得其在轨迹空间中的轨迹点序列；
[0010]A3、
针对步骤
A1
采样获得的每一条轨迹，并根据步骤
A2
获得的各轨迹的轨迹点序列，采用样条函数进行分段拟合；
[0011]A4、
针对步骤
A1
采样获得的每一条轨迹，根据步骤
A3
的分段，将其各轨迹段的起止位置信息
、
起止时序信息以及对应样条函数的参数信息，按其所属轨迹和轨迹段进行编码，并发送至服务器；
[0012]B、
服务器处理过程：
[0013]B1、
服务器对接收到的信息进行解码，将属于相同轨迹的样条函数，根据样条函数的参数复原其所对应轨迹段，并根据对应轨迹段的起止位置信息和起止时序信息，顺序拼
接获得对应轨迹的复原轨迹；
[0014]B2、
对步骤
B1
获得的复原轨迹，进行聚类分析
。
[0015]进一步的，步骤
A2
中，还包括：
[0016]根据该客户端预设的差分隐私总预算
ε
以及各轨迹上的轨迹点数量，为各轨迹分配与其轨迹点数量等比例的轨迹差分隐私参数
ε
k
；所述
k
为轨迹的序号；
[0017]然后，针对每一条轨迹，分别进行如下加噪处理：
[0018]对该轨迹的轨迹空间进行首次网格划分，判定是否满足每个网格中至多有一个轨迹点；针对不满足判定的网格进行二次网格划分，并使其满足每个网格中至多有一个轨迹点；
[0019]基于该轨迹各轨迹点所对应网格，分配该轨迹各轨迹点的差分隐私预算，每个轨迹点的差分隐私预算与其所在网格的边长成反比；所述
i
为轨迹点的序号；
[0020]对该轨迹上各轨迹点，分别根据其差分隐私预算进行差分加噪
。
[0021]进一步的，步骤
A2
中，对该轨迹的轨迹空间进行首次网格划分，判定是否满足每个网格中至多有一个轨迹点；针对不满足判定的网格进行二次网格划分，并使其满足每个网格中至多有一个轨迹点，具体包括：
[0022]A21、
根据设定数值
N
，将整个轨迹空间划分为
N
×
N
的均匀网格，每个网格的网格等级均为并获得网格集合；
[0023]A22、
计算网格集合中每个网格的网格计数
[0024][0025]其中，
D
k
表示第
k
条轨迹，表示第
k
条轨迹上的第
i
个轨迹点，表示第
k
条轨迹所对应轨迹空间经网格划分所获得的第
n
个网格，表示第
k
条轨迹中位于网格范围内的轨迹点的数量，
|D
k
|
表示第
k
条轨迹的全部轨迹点数量；
[0026]A23、
遍历网格集合中每个网格的网格计数，判定其是否达到判定条件，所述判定条件为：网格的网格计数为0或者
1/|D
k
|
；并针对未满足判定条件的网格，执行步骤
A24
；
[0027]A24、
按如下公式计算对应网格的二次划分参数
M
：
[0028][0029]其中，
β
为预定义的网格常数，为二次划分前该网格的网格计数，为上取整函数；
[0030]根据二次划分参数
M
，将对应网格二次划分为
M
×
M
的均匀子网格，并根据二次划分所获得的网格，对网格集合进行更新；子网格的网格等级设定为
[0031]A25、
循环执行步骤
A23
‑
A24
，直至完成遍历
。
[0032]进一步的，步骤
A21
中，所述
N
设置为
len(D
k
)/R
，其中，
R
为步骤
A2
进行轨迹点采样
的间隔长度，
len(D
k
)
表示第
k
条轨迹的长度
。
[0033]进一步的，步骤
A24
中，所述
β
为
80/
ε
k
，
ε
k
是第
k
条轨迹的隐私预算...

【技术保护点】

【技术特征摘要】
1.
一种基于联邦学习的时空轨迹聚类方法，应用于采用联邦学习架构的分布式系统，所述分布式系统包括服务器和多个客户端，其特征在于，该方法包括：
A、
客户端处理过程：
A1、
对客户端的本地轨迹，进行遍历采样，获得一组具有相同起点和终点的轨迹；
A2、
针对步骤
A1
采样获得的每一条轨迹，根据预设的间隔距离进行等距取点，获得其在轨迹空间中的轨迹点序列；
A3、
针对步骤
A1
采样获得的每一条轨迹，并根据步骤
A2
获得的各轨迹的轨迹点序列，采用样条函数进行分段拟合；
A4、
针对步骤
A1
采样获得的每一条轨迹，根据步骤
A3
的分段，将其各轨迹段的起止位置信息
、
起止时序信息以及对应样条函数的参数信息，按其所属轨迹和轨迹段进行编码，并发送至服务器；
B、
服务器处理过程：
B1、
服务器对接收到的信息进行解码，将属于相同轨迹的样条函数，根据样条函数的参数复原其所对应轨迹段，并根据对应轨迹段的起止位置信息和起止时序信息，顺序拼接获得对应轨迹的复原轨迹；
B2、
对步骤
B1
获得的复原轨迹，进行聚类分析
。2.
如权利要求1所述的一种基于联邦学习的时空轨迹聚类方法，其特征在于，步骤
A2
中，还包括：根据该客户端预设的差分隐私总预算
ε
以及各轨迹上的轨迹点数量，为各轨迹分配与其轨迹点数量等比例的轨迹差分隐私参数
ε
k
；所述
k
为轨迹的序号；然后，针对每一条轨迹，分别进行如下加噪处理：对该轨迹的轨迹空间进行首次网格划分，判定是否满足每个网格中至多有一个轨迹点；针对不满足判定的网格进行二次网格划分，并使其满足每个网格中至多有一个轨迹点；基于该轨迹各轨迹点所对应网格，分配该轨迹各轨迹点的差分隐私预算，每个轨迹点的差分隐私预算与其所在网格的边长成反比；所述
i
为轨迹点的序号；对该轨迹上各轨迹点，分别根据其差分隐私预算进行差分加噪
。3.
如权利要求2所述的一种基于联邦学习的时空轨迹聚类方法，其特征在于，步骤
A2
中，对该轨迹的轨迹空间进行首次网格划分，判定是否满足每个网格中至多有一个轨迹点；针对不满足判定的网格进行二次网格划分，并使其满足每个网格中至多有一个轨迹点，具体包括：
A21、
根据设定数值
N
，将整个轨迹空间划分为
N
×
N
的均匀网格，每个网格的网格等级均为并获得网格集合；
A22、
计算网格集合中每个网格的网格计数的网格计数其中，
D
k
表示第
k
条轨迹，表示第
k
条轨迹上的第
i
个轨迹点，表示第
k
条轨迹所对应
轨迹空间经网格划分所获得的第
n
个网格，表示第
k
条轨迹中位于网格范围内的轨迹点的数量，
|D
k
|
表示第
k
条轨迹的全部轨迹点数量；
A23、
遍历网格集合中每个网格的网格计数，判定其是否达到判定条件，所述判定条件为：网格的网格计数为0或者
1/|D
k
|
；并针对未满足判定条件的网格，执行步骤
A24
；
A24、
按如下公式计算对应网格的二次划分参数
M
：其中，
β
为预定义的网格常数，为二次划分前该网格的网格计数，为上取整函数；根据二次划分参数
M
，将对应网格二次划分为
M
×
M
的均匀子网格，并根据二次划分所获得的网格，对网格集合进行更新；子网格的网格等级设定为
A25、
循环执行步骤
A23
‑
A24
，直至完成遍历
。4.
如权利要求3所述的一种基于联邦学习的时空轨迹聚类方法，其特征在于，步骤
A21
中，所述
N
设置为
len(D
k
)/R
，其中，
R
为步骤
A2
进行轨迹点采样的间隔长度，
len(D
k
)
表示第
k
条轨迹的长度
。5.
如权利要求3所述的一种基于联邦学习的时空轨迹聚类方法，其特征在于，步骤
A24
中，所述
β
为

【专利技术属性】
技术研发人员：陈爱国，罗光春，付波，詹思瑜，王智镜，王天孜，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人