一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法技术

技术编号：26731962 阅读：52 留言：0更新日期：2020-12-15 14:35

一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法，主要步骤为：1)预处理用户在社交网络上产生的时空行为数据，生成用户时空行为序列；2)基于时空行为序列数据定义并计算社交网络间任意两用户的相似度；3)构建以社交网络用户为节点的二部图，相同社交网络用户节点间无边，不同社交网络用户节点间边的权重等于用户相似度；4)计算二部图的最大权匹配；5)基于最大权匹配结果生成虚拟身份对齐结果。本发明专利技术能够为全方位分析用户在社交网络中扮演的角色、准确估计用户真实属性提供重要理论基础与技术支撑，所需要数据在现实社交网络中易于获取，计算过程易于通过分布式框架进行，可以在大规模复杂网络中快速做到虚拟用户身份对齐。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法
本专利技术属于社交媒体数据挖掘领域，特别涉及一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法。
技术介绍
随着在线社交网络等互联网技术的飞速发展与大规模普及，网络空间内的数据越发呈现出多源异构的特性。个体在不同社交网络上的虚拟身份可能具有不同的社交关系，出于保护隐私的目的，个体在社交网络上填写的用户属性可能不具有真实性，基于单一一种社交网络，技术人员很难准确评估用户的真实社交关系与属性，这给精准推荐带来了难度，因此对个体在多个社交网络中的虚拟身份进行综合分析是一个有效的解决办法。其中适合于大规模社交网络的虚拟用户身份对齐技术是关键的技术。当前主流的身份对齐技术主要包括基于虚拟用户在所属社交网络中的拓扑特性和基于用户属性进行对齐，由于社交网络的异构性以及用户填写的属性真实性存疑，上述技术的范围适用较窄，相比于拓扑特性和用户属性，用户的行为特性与时空数据在不同社交网络上具有更大相似性与更高的真实性，当能够有效获取用户在社交网络上的行为数据以及产生行为的时间与位置数据时，基于时空行为数据能够快速准确地实现跨社交网络虚拟用户身份对齐。因此，怎样利用时空数据与行为数据进行虚拟用户身份对齐，成为了一个研究重点。
技术实现思路
为了克服上述现有技术的缺点，针对社交网络中用户身份虚拟化、隐蔽性的问题，本专利技术的目的在于提供一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法，能够在规模较大的社交网络间实现快速、高效的虚拟用户身份对齐。r>为了实现上述目的，本专利技术采用的技术方案是：一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法，包括如下步骤：步骤1，针对社交网络中用户时空行为数据，将时空网格化，使得每一个网格对应于一个网格编号grid_index，其中时间上可以一天作为粒度，空间上可以区(县)作为粒度，将用户在社交网络上的多种线上行为(包括3种指定行为：发布、转发、评论)进行离散编码，每一种线上行为对应于一个行为编号activity_index。步骤2，获取用户在社交网络上的线上行为对应的时间与位置数据，进而根据步骤1查找该时间与位置数据对应的时空网格的编号grid_index与该线上行为所对应的的行为编号activity_index，将该线上行为对应的网格编号grid_index和行为编号activity_index的组合作为一个行为元素e，行为元素e即二元组(grid_index、activity_index)。按时间顺序获取用户的在社交网络上所有线上行为的对应行为元素，由这些行为元素构成该用户的时空行为数据序列sequence，计算待对齐两个社交网络中所有待对齐用户的时空行为数据序列。步骤3，根据步骤2中的时空行为数据序列，计算两个社交网络间的任意两个用户的行为序列相似度，方法如下：步骤3.1，获取分属两个社交网络的两个用户的时空行为数据序列sequence1、sequence2，计算行为序列sequence1和行为序列sequence2的最长公共子序列subsequence；步骤3.2，计算作为sequence1与sequence2的相似度，其中|·|表示序列·的长度。步骤4，将两个社交网络中的用户分别划分为对应的两个节点集合，构建完全二部图，具体构建过程包括以下步骤：步骤4.1：获取待对齐的两个社交网络中的所有待对齐用户，为每一个用户定义一个相对应的节点。步骤4.2：对于分属于两个社交网络的两个用户节点，计算用户间的时空行为序列相似度，将序列相似度作为节点间边的权重，同一社交网络中的节点间无边，由此得到二部带权图G。步骤5，计算二部图的最大权匹配matching，可基于Kuhn-Munkres算法计算二部图最大权匹配。步骤6，根据二部图最大权匹配，从该匹配中删除权重小于给定阈值的边，将剩余每条边连接的两个节点作为对齐的两个用户，从而计算得到对齐用户，生成跨社交网络虚拟用户对齐结果，具体包括以下步骤：步骤6.1，定义阈值α，从二部图的最大权匹配matching中删除权重小于α的边，α的取值可为0.75；步骤6.2，对于matching中的任意一条边edge，获取edge的两个端点node1与node2，获取node1在社交网络1中对应的虚拟用户user1，获取node2在社交网络2中对应的虚拟用户user2，将user1与user2作为一对被对齐的虚拟用户。与现有技术相比，本专利技术的有益效果是：(1)、本专利技术仅通过用户的时空数据与社交网络基础行为数据进行身份对齐，不需要额外的用户拓扑数据以及真实性难以确定的属性等数据，大多数社交网络中用户时空数据与行为数据数据量丰富，因此本专利技术适用于大多数社交网络间虚拟用户身份对齐。(2)、本专利技术通过计算用户相似度进而基于二部图最大权匹配算法实现虚拟用户身份对齐，其中用户时空行为序列生成与时空行为序列相似度易于通过分布式框架进行计算，因此本专利技术适合于在大规模社交网络间进行虚拟用户身份对齐。附图说明图1为基于时空行为数据的跨社交网络身份对齐流程示意图。图2为用户时空行为序列相似度计算示意图。图3为由二部带权图最大权匹配生成对齐结果示意图。具体实施方式下面结合实施例对本专利技术做进一步详细描述，本专利技术整体流程如图1所示。一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法，包括如下步骤：步骤S1：社交网络中用户时空行为数据预处理：本实施例中的数据集收集自微博和tweeter，数据集中包括1000个志愿者的微博账号在2019年12月的全部行为与该1000个志愿者twitter账号在2019年12月的全部行为。步骤S101：将时空网格化，时间上将一天作为粒度，空间上将区(县)作为粒度，每一个网格对应于一个编号grid_index，网格编号总数量等于区(县)总数乘以31(2019年12月有31天)；将用户在社交网络上的3种线上行为(发布、转发、评论)进行离散编码，每一种行为对应于一个编号activity_index，发布、转发、评论三种行为的activity_index分别为0,1,2。步骤S102：获取用户在社交网络上进行上述线上行为的时间与位置数据，进而确定该时间点与位置所属的时空网格，查找得到时空网格编号grid_index，同时查找该行为所对应的行为编号activity_index，将(grid_index、activity_index)二元组作为一个元素e。按时间顺序获取用户在社交网络上所有上述线上行为的对应元素，由这些元素构成用户在该社交网络上的时空行为数据序列sequence。步骤S103：计算待对齐社交网络中所有待对齐用户在各自社交网络中的时空行为数据序列得到序列集sequence_set。步骤S2：基于时空行为数据序列计算社交网络间用户相似度，用户相似度的计算具体过程包括以下步骤，时本文档来自技高网...

【技术保护点】
1.一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法，其特征在于，包括如下步骤：/n步骤1，针对社交网络中用户时空行为数据，将时空网格化，使得每一个网格对应于一个网格编号，将用户在社交网络的多种线上行为进行离散编码，每一种线上行为对应于一个行为编号；/n步骤2，获取用户在社交网络的线上行为对应的时间与位置数据，根据步骤1得到的网格编号和行为编号，将该线上行为对应的网格编号和行为编号的组合作为一个行为元素，并按时间顺序获取用户在社交网络上所有线上行为的对应行为元素，由这些行为元素构成该用户的时空行为数据序列，计算待对齐两个社交网络中所有待对齐用户的时空行为数据序列；/n步骤3，根据步骤2中的时空行为数据序列，计算两个社交网络间的任意两个用户的行为序列相似度；/n步骤4，将两个社交网络中的用户分别划分为对应的两个节点集合，构建完全二部图，以步骤3得到的用户间行为序列相似度为各个边的权值；/n步骤5，根据步骤4得到的二部图，计算该二部图的最大权匹配；/n步骤6，根据步骤5得到的二部图最大权匹配，从该匹配中删除权重小于给定阈值的边，将剩余每条边连接的两个节点作为对齐的两个用户，从而计算得到对齐用户。/n...

【技术特征摘要】
1.一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法，其特征在于，包括如下步骤：
步骤1，针对社交网络中用户时空行为数据，将时空网格化，使得每一个网格对应于一个网格编号，将用户在社交网络的多种线上行为进行离散编码，每一种线上行为对应于一个行为编号；
步骤2，获取用户在社交网络的线上行为对应的时间与位置数据，根据步骤1得到的网格编号和行为编号，将该线上行为对应的网格编号和行为编号的组合作为一个行为元素，并按时间顺序获取用户在社交网络上所有线上行为的对应行为元素，由这些行为元素构成该用户的时空行为数据序列，计算待对齐两个社交网络中所有待对齐用户的时空行为数据序列；
步骤3，根据步骤2中的时空行为数据序列，计算两个社交网络间的任意两个用户的行为序列相似度；
步骤4，将两个社交网络中的用户分别划分为对应的两个节点集合，构建完全二部图，以步骤3得到的用户间行为序列相似度为各个边的权值；
步骤5，根据步骤4得到的二部图，计算该二部图的最大权匹配；
步骤6，根据步骤5得到的二部图最大权匹配，从该匹配中删除权重小于给定阈值的边，将剩余每条边连接的两个节点作为对齐的两个用户，从而计算得到对齐用户。

2.根据权利要求1所述基于时空行为数据的跨社交网络虚拟用户身份对齐方法，其特征在于，所述步骤1中，在对时空进行网格化的过程中，时间上以一天作为粒度，空间上以区和县作为粒度。

3.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法，其特征在于，所述步骤1的线上行为包括发布、转发和评论行为。

4.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法，其特征...

【专利技术属性】
技术研发人员：佟玲玲，时磊，段东圣，孙旷怡，井雅琪，段运强，彭成维，岳天一，周亚东，刘晓明，沈超，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人