基于网格聚类和时空特征的社交网络用户匹配方法组成比例

技术编号:35331431 阅读:25 留言:0更新日期:2022-10-26 11:48
本发明专利技术公开了一种基于网格聚类和时空特征的社交网络用户匹配方法,首先从待匹配用户对的两个社交网络中获取若干对已知为同一用户的用户对作为种子用户对,通过种子用户对获取负例用户对,共同作为样本用户对,获取各个用户签到记录,基于网格聚类获取每个用户的合格网格簇,从用户的签到记录中提取出时空特征,包括用户签到平稳度、用户签到偏好时间和用户轨迹锚点,计算用户对的用户合格网格簇相似度、用户签到平稳度相似度、用户签到偏好时间相似度以及用户轨迹锚点相似度,构建用户匹配模型并采用样本用户对的数据进行训练,将待匹配用户对的数据输入训练好的用户匹配模型,得到匹配结果。本发明专利技术可以在签到数据不平衡情况下实现用户匹配。况下实现用户匹配。况下实现用户匹配。

【技术实现步骤摘要】
基于网格聚类和时空特征的社交网络用户匹配方法


[0001]本专利技术属于社交网络
,更为具体地讲,涉及一种基于网格聚类和时空特征的社交网络用户匹配方法。

技术介绍

[0002]在信息化的时代背景下,现代社交网络的规模已经达到几十亿的用户水平,同一个用户会在不同的社交网络平台发布和分享个人信息,在不同社交网络中进行用户匹配从而识别出相同用户具有重要意义。通过社交网络识别用户的身份信息,这将对许多应用程序产生重要的实际影响,例如由用户识别衍生的服务:好友推荐、社区检测、信息传播、个性化搜索、隐私保护、恶意用户识别和在线精确营销以及为研究人员提供更完整的用户数据。
[0003]在基于社交网络用户签到的用户匹配方法中,现有研究技术主要分为两种方法,第一种方法是基于分布频率,这类方法通常是在空间和时间两个特征维度上统计用户的签到数据,通过分析用户地理位置和签到时间的共现频率,计算用户签到记录在频率下的KL散度或者其他分布的相似性,利用核密度估计等方法来计算出用户轨迹的相似性。另一种方法是将用户轨迹进行向量化或者文本化,计算向量相似度或文本的主题分布来表征轨迹相似度。向量化的方法通常先对用户轨迹进行序列化,利用TF

IDF模型或Paragraph2vec模型等对序列进行向量转换,最后采用余弦相似度等方法计算相似度。文本化的方法则是将位置转化成语义词,将用户轨迹文本化,利用LDA模型等获取用户的主题分布,最后采用KL散度得出用户轨迹之间的相似性。
[0004]高星等人[Gao X,Ji W,Li Y,et al.User Identification with Spatio

Temporal Awareness across Social Networks[C]//the 27th ACM International Conference.ACM,2018.]提出了UIDwST算法(跨社交网络时空感知的用户识别方法),该方法优点是耦合了时空信息,缺点是1、适应性差,这类方法只适用于相似度高的社交网络上,用户网络的轨迹在数据上通常很难对称,数据量的不平衡使得这类方法很难达到良好的效果。2、计算复杂度高,这类方法很难应用于大型的社交网络。
[0005]孟军琦等人[QI M J,WANG Z Y,HE Z,et al.User identification across asynchronous mobility traijectories[J].Sensors,2019,19(9):2020.]提出一种基于用户轨迹分布最频繁的TOP

N(用户轨迹分布最频繁的N个区域)区域的识别解析方法,该方法优点是舍弃了低分布频率的坐标计算,减少了复杂度,缺点是需要密集的用户轨迹坐标点。
[0006]韩小辉等人[HAN X H,WANG L H,XU S J,et al.Linking social network accounts by modeling user spatiotemporal habits[C]//IEEE International Conference on Intelligence and Security Informatics.[S.l.]:IEEE,2017:19

24.]构建了一个主题模型,将位置转化成语义词,将用户轨迹文本化,利用LDA模型获取用户的主题分布,最后采用KL散度得出用户轨迹之间的相似性。缺点是1、抗噪声性能差,没有对用户轨迹中的噪声签到记录很好地识别和剔除,使得计算结果受到不小的影响。2、对数据质
量依赖程度高,轨迹的语义提取需要良好的数据支持,在数据稀疏的情况下不能对用户轨迹有效地进行文本化。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的不足,提供一种基于网格聚类和时空特征的社交网络用户匹配方法,在面对签到数据的签到数量不平衡、签到时间不对称的情况下,能够有效实现用户匹配。
[0008]为了实现上述专利技术目的,本专利技术基于网格聚类和时空特征的社交网络用户匹配方法包括以下步骤:
[0009]S1:在需要对分属两个社交网络A、B的两个用户进行用户匹配时,记该用户对为从两个社交网络中获取若干对已知为同一用户的用户对作为种子用户对,设置其匹配得分为1;然后从种子用户对中将属于社交网络A的某个用户与属于社交网络B的其他用户进行随机配对得到负例用户对,设置其匹配得分为0;将种子用户对和负例用户对均作为样本用户对,记样本用户对的数量为M,第m

个样本用户对中属于社交网络A的用户为第m

个样本用户对中属于社交网络B的用户为
[0010]对于每个用户获取该用户在所属社交网络发布的签到记录集合记签到记录集合中每条签到记录为其中表示用户第j条签到记录中的坐标经度、坐标纬度,t
i,j
表示用户第j条签到记录中的时间戳,条签到记录中的时间戳,表示用户的签到记录集合中的签到记录数量;
[0011]S2:基于网格聚类获取每个用户的合格网格簇,具体方法包括以下步骤:
[0012]S2.1:将用户的签到记录集合合并得到集合S0,从集合S0中所有签到记录中获取经度最小值lon
min
、经度最大值lon
max
和纬度最小值lat
min
、纬度最大值lat
max
,然后将经度lon
min
‑▽
lon
至lon
max
+

lon
、纬度lat
min
‑▽
lat
至lat
max
+

lat
的区域作为公共区域,其中

lon
表示预设的经度偏差,

lat
表示预设的纬度偏差;
[0013]S2.2:将步骤S2.1得到的公共区域的经纬度分别进行K等距划分,得到包含K2个网格的网格阵列,然后对于每个签到记录集合确定该签到记录集合中落个每个网格的签到记录数量作为用户在对应网格的签到密度;将签到密度大于0的网格作为有效网格,对于每个用户筛选出有效网格构建得到网格集合,记用户的有效网格数量为所构成的网格集合为其中其中表示用户的第d个有效网格在网格阵列中的坐标,的第d个有效网格在网格阵列中的坐标,表示用户的第d个有效网格的签到密度;
[0014]S2.3:对于每个用户根据坐标对网格集合中的所有网格进行聚类,记聚类得到的网格簇数量为记网格簇集合为其中表示用户的第q个网格簇,
[0015]S2.4:对于每个用户所对应的网格簇集合计算得到每个网格簇中用户的签到密度均值作为该网格簇的签到密度判断是否签到密度如果是,则判定网格簇为合格网格簇,否则记与用户属于同一用户对的用户为其网格集合为对于用户的每个网格簇计算网格簇中每个网格与网格集合中每个网格在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网格聚类和时空特征的社交网络用户匹配方法,其特征在于包括以下步骤:S1:在需要对分属两个社交网络A、B的两个用户进行用户匹配时,记该用户对为从两个社交网络中获取若干对已知为同一用户的用户对作为种子用户对,设置其匹配得分为1;然后从种子用户对中将属于社交网络A的某个用户与属于社交网络B的其他用户进行随机配对得到负例用户对,设置其匹配得分为0;将种子用户对和负例用户对均作为样本用户对,记样本用户对的数量为M,第m

个样本用户对中属于社交网络A的用户为第m

个样本用户对中属于社交网络B的用户为m

=1,2,

,M;对于每个用户i∈{A,B},m=0,1,2,

,M,获取该用户在所属社交网络发布的签到记录集合记签到记录集合中每条签到记录为其中表示用户第j条签到记录中的坐标经度、坐标纬度,t
i,j
表示用户第j条签到记录中的时间戳,签到记录中的时间戳,表示用户的签到记录集合中的签到记录数量;S2:基于网格聚类获取每个用户的合格网格簇,具体方法包括以下步骤:S2.1:将用户的签到记录集合合并得到集合S0,从集合S0中所有签到记录中获取经度最小值lon
min
、经度最大值lon
max
和纬度最小值lat
min
、纬度最大值lat
max
,然后将经度至纬度至的区域作为公共区域,其中表示预设的经度偏差,表示预设的纬度偏差;S2.2:将步骤S2.1得到的公共区域的经纬度分别进行K等距划分,得到包含K2个网格的网格阵列,然后对于每个签到记录集合确定该签到记录集合中落个每个网格的签到记录数量作为用户在对应网格的签到密度;将签到密度大于0的网格作为有效网格,对于每个用户筛选出有效网格构建得到网格集合,记用户的有效网格数量为所构成的网格集合为其中其中表示用户的第d个有效网格在网格阵列中的坐标,的第d个有效网格在网格阵列中的坐标,表示用户的第d个有效网格的签到密度;S2.3:对于每个用户根据坐标对网格集合中的所有网格进行聚类,记聚类得到的网格簇数量为记网格簇集合为其中表示用户的第q个网格簇,S2.4:对于每个用户所对应的网格簇集合计算得到
每个网格簇中用户的签到密度均值作为该网格簇的签到密度判断是否签到密度如果是,则判定网格簇为合格网格簇,否则记与用户属于同一用户对的用户为其网格集合为对于用户的每个网格簇计算网格簇中每个网格与网格集合中每个网格在网格阵列中的坐标距离,如果有任意一对网格的距离小于预设阈值,则判定网格簇为合格网格簇,否则判定网格簇不为合格网格簇;记用户所对应的合格网格簇集合为其中表示用户的第v个合格网格簇,S3:从用户的签到记录中提取出时空特征,包括用户签到平稳度、用户签到偏好时间和用户轨迹锚点,每个时空特征的提取方法如下:1)用户签到平稳度:对于每个用户从其所有签到记录为中提取出时间戳序列计算出相邻两个时间戳的时间差得到时间差序列计算时间差序列的变异系数作为用户的签到平稳度;2)用户签到偏好时间:将每天划分为H个时间区间,对于每个用户根据其时间戳序列得到每个时间区间的签到数量h=1,2,

,H,将时间区间按照签到数量从大到小排序,筛选出签到数量最多的Z个时间段作为用户的签到偏好时间,记其时间区间序号分别为z=1,2,

,Z;3)用户轨迹锚点:对于用户和用户记其时间戳序列和对于任意两个时间戳和其中如果满足Δt表示预设的时间差阈值,如果是,则判定时间戳和为合格时间戳对,将该时间戳对作为轨迹锚点存放至时间戳对集合T
m,pair
中,否则不作任何操作;S4:计算用户对的多属性相似度,包括用户合格网格簇相似度、用户签到平稳度相似度、用户签到偏好时间相似度以及用户轨迹锚点相似度,每个属性相似度的具体计算方法如下:1)用户合格网格簇相似度:对于用户获取其合格网格簇集合
中所包含的网格数量当令用户用户网格数量否则令用户用户网格数量计算用户的合格网格簇中每个网格到...

【专利技术属性】
技术研发人员:马强高建平邢玲张琦吴红海戴军
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1