【技术实现步骤摘要】
基于网格聚类和时空特征的社交网络用户匹配方法
[0001]本专利技术属于社交网络
,更为具体地讲,涉及一种基于网格聚类和时空特征的社交网络用户匹配方法。
技术介绍
[0002]在信息化的时代背景下,现代社交网络的规模已经达到几十亿的用户水平,同一个用户会在不同的社交网络平台发布和分享个人信息,在不同社交网络中进行用户匹配从而识别出相同用户具有重要意义。通过社交网络识别用户的身份信息,这将对许多应用程序产生重要的实际影响,例如由用户识别衍生的服务:好友推荐、社区检测、信息传播、个性化搜索、隐私保护、恶意用户识别和在线精确营销以及为研究人员提供更完整的用户数据。
[0003]在基于社交网络用户签到的用户匹配方法中,现有研究技术主要分为两种方法,第一种方法是基于分布频率,这类方法通常是在空间和时间两个特征维度上统计用户的签到数据,通过分析用户地理位置和签到时间的共现频率,计算用户签到记录在频率下的KL散度或者其他分布的相似性,利用核密度估计等方法来计算出用户轨迹的相似性。另一种方法是将用户轨迹进行向量化或者文本化,计算向量相似度或文本的主题分布来表征轨迹相似度。向量化的方法通常先对用户轨迹进行序列化,利用TF
‑
IDF模型或Paragraph2vec模型等对序列进行向量转换,最后采用余弦相似度等方法计算相似度。文本化的方法则是将位置转化成语义词,将用户轨迹文本化,利用LDA模型等获取用户的主题分布,最后采用KL散度得出用户轨迹之间的相似性。
[0004]高星等人[Gao X,Ji W ...
【技术保护点】
【技术特征摘要】
1.一种基于网格聚类和时空特征的社交网络用户匹配方法,其特征在于包括以下步骤:S1:在需要对分属两个社交网络A、B的两个用户进行用户匹配时,记该用户对为从两个社交网络中获取若干对已知为同一用户的用户对作为种子用户对,设置其匹配得分为1;然后从种子用户对中将属于社交网络A的某个用户与属于社交网络B的其他用户进行随机配对得到负例用户对,设置其匹配得分为0;将种子用户对和负例用户对均作为样本用户对,记样本用户对的数量为M,第m
′
个样本用户对中属于社交网络A的用户为第m
′
个样本用户对中属于社交网络B的用户为m
′
=1,2,
…
,M;对于每个用户i∈{A,B},m=0,1,2,
…
,M,获取该用户在所属社交网络发布的签到记录集合记签到记录集合中每条签到记录为其中表示用户第j条签到记录中的坐标经度、坐标纬度,t
i,j
表示用户第j条签到记录中的时间戳,签到记录中的时间戳,表示用户的签到记录集合中的签到记录数量;S2:基于网格聚类获取每个用户的合格网格簇,具体方法包括以下步骤:S2.1:将用户的签到记录集合合并得到集合S0,从集合S0中所有签到记录中获取经度最小值lon
min
、经度最大值lon
max
和纬度最小值lat
min
、纬度最大值lat
max
,然后将经度至纬度至的区域作为公共区域,其中表示预设的经度偏差,表示预设的纬度偏差;S2.2:将步骤S2.1得到的公共区域的经纬度分别进行K等距划分,得到包含K2个网格的网格阵列,然后对于每个签到记录集合确定该签到记录集合中落个每个网格的签到记录数量作为用户在对应网格的签到密度;将签到密度大于0的网格作为有效网格,对于每个用户筛选出有效网格构建得到网格集合,记用户的有效网格数量为所构成的网格集合为其中其中表示用户的第d个有效网格在网格阵列中的坐标,的第d个有效网格在网格阵列中的坐标,表示用户的第d个有效网格的签到密度;S2.3:对于每个用户根据坐标对网格集合中的所有网格进行聚类,记聚类得到的网格簇数量为记网格簇集合为其中表示用户的第q个网格簇,S2.4:对于每个用户所对应的网格簇集合计算得到
每个网格簇中用户的签到密度均值作为该网格簇的签到密度判断是否签到密度如果是,则判定网格簇为合格网格簇,否则记与用户属于同一用户对的用户为其网格集合为对于用户的每个网格簇计算网格簇中每个网格与网格集合中每个网格在网格阵列中的坐标距离,如果有任意一对网格的距离小于预设阈值,则判定网格簇为合格网格簇,否则判定网格簇不为合格网格簇;记用户所对应的合格网格簇集合为其中表示用户的第v个合格网格簇,S3:从用户的签到记录中提取出时空特征,包括用户签到平稳度、用户签到偏好时间和用户轨迹锚点,每个时空特征的提取方法如下:1)用户签到平稳度:对于每个用户从其所有签到记录为中提取出时间戳序列计算出相邻两个时间戳的时间差得到时间差序列计算时间差序列的变异系数作为用户的签到平稳度;2)用户签到偏好时间:将每天划分为H个时间区间,对于每个用户根据其时间戳序列得到每个时间区间的签到数量h=1,2,
…
,H,将时间区间按照签到数量从大到小排序,筛选出签到数量最多的Z个时间段作为用户的签到偏好时间,记其时间区间序号分别为z=1,2,
…
,Z;3)用户轨迹锚点:对于用户和用户记其时间戳序列和对于任意两个时间戳和其中如果满足Δt表示预设的时间差阈值,如果是,则判定时间戳和为合格时间戳对,将该时间戳对作为轨迹锚点存放至时间戳对集合T
m,pair
中,否则不作任何操作;S4:计算用户对的多属性相似度,包括用户合格网格簇相似度、用户签到平稳度相似度、用户签到偏好时间相似度以及用户轨迹锚点相似度,每个属性相似度的具体计算方法如下:1)用户合格网格簇相似度:对于用户获取其合格网格簇集合
中所包含的网格数量当令用户用户网格数量否则令用户用户网格数量计算用户的合格网格簇中每个网格到...
【专利技术属性】
技术研发人员:马强,高建平,邢玲,张琦,吴红海,戴军,
申请(专利权)人:西南科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。