【技术实现步骤摘要】
一种社交媒体用户行为时间模式的自适应隐私保护方法
本专利技术属于互联网社交媒体
,具体涉及社交媒体用户行为时间模式的自适应隐私保护方法。
技术介绍
伴随着微博、网络论坛等传统的社交媒体以及微信、Facebook、Twitter等新兴社交媒体的出现,人们进入了社交媒体时代。社交媒体的快速兴起加速了信息的流动,使得人与人之间的沟通变得越来越便捷。冯登国等人指出,随着非结构化数据、社交网络数据的激增,以及云计算、移动计算的快速发展,当前数据处理量动辄几PB,而全球数据量也已增长到ZB级[1]。大数据技术的发轫正是源于用户对海量数据的采集、存储、管理、分析以及持久性的需求,因此这是顺应用户需求的产物。庞大的数据量也导致了大数据安全问题,需要通过隐私保护技术来解决。究其原因,随着网络技术的快速发展和用户在网络中的参与度的极大提高,对于每一个个体,都存在着与之相关的网络信息,这些相关信息的存量不断累积,攻击者就可以通过相关信息的不同组合来挖掘隐私,导致隐私泄露。例如,用户在网络社交媒体上的发贴、回帖等行为都会留下时间戳信息,由此构成的时间模式在很大程度上反映了个人的行为 ...
【技术保护点】
一种社交媒体用户行为时间模式的自适应隐私保护方法,其特征在于,先定义所需处理的用户行为、行为模式元信息、行为模式的元信息集:定义1,用户行为,是指用户在网络社交媒体中留下附带有时间标签的痕迹的行为,包括发贴行为、评论行为、签到行为;在面向以时间点数据为主的应用中,时间模式是导致隐私泄露的主要数据源,将这种原始的用户行为表示为:
【技术特征摘要】
1.一种社交媒体用户行为时间模式的自适应隐私保护方法,其特征在于,先定义所需处理的用户行为、行为模式元信息、行为模式的元信息集:定义1,用户行为,是指用户在网络社交媒体中留下附带有时间标签的痕迹的行为,包括发贴行为、评论行为、签到行为;在面向以时间点数据为主的应用中,时间模式是导致隐私泄露的主要数据源,将这种原始的用户行为表示为:其中,表示某个用户,表示某个时间段,表示行为在时间标签上的数值,是在时间段内的时间标签数;定义2,行为模式元信息,一定时间范围内的用户行为对应一个二维结构,将该时间范围按特定粒度切分成时间段,构成第一个维度,每个时间段上用户行为的频次作为第二个维度,连续的个时间段上用户行为的频次称为行为模式元信息;时间段是元信息的属性,记作,时间段上用户行为的频次是元信息的值,记作,从而元信息可以表示为连续个时间段属性上的投影,记投影映射为T:;定义3,行为模式的元信息集,把行为模式元信息看作空间中的数据点,由社交媒体中所有用户对应的K个数据点所构成的点集称为行为模式的元信息集,形式定义如下:其中,,i=1,2,…,K;自适应隐私保护方法分为预处理流程和隐私保护流程两个步骤:(一)预处理流程包括:获取原始数据,按最小时间分割粒度,扩大时间粒度,生成行为模式元信息集;(1)获取原始数据原始数据是指社交媒体上与用户行为有关的数据,可以通过各种网络爬虫或社交媒体自身提供的应用程序接口调用得到,将用户标识和行为的时间戳提取出来,该数据集包括若干个用户在一定时间内的行为数据,符合定义1的要求;(2)按最小时间粒度分割先设定一个最小时间粒度,其原则是优先保证数据可用性;分割过程就是对原始数据集的时间跨度按照最小时间粒度进行平均分割;(3)扩大时间粒度扩大时间粒度的目的是为了提升数据的隐私度,同时减小原始数据的数据量,以保证后续的自适应微聚集算法在处理这些数据时不需要太多的计算资源消耗;扩大时间粒度的过程为:依次扫描每个最小时间粒度上的用户行为数量,当该数量小于匿名度时,表明这种时间粒度无法保证k个不同用户的隐私;将其与后续的时间粒度进行合并,直到满足行为数量大于匿名度为止,得到获得了一系列时间粒度;(4)生成行为模式元信息集生成行为模式的元信息集就是统计每个用户在每个时间粒度分割区间上的行为数量,并构造成为一个大小为用户数量*时间粒度数的矩阵;对于已经获得的一系列时间粒度,按照顺序分别形成分割区间,即;最终所形成的矩阵形式上为:其中,每个元素表示第i个用户在第j个区间上的行为次数,K为用户数;(二)隐私保护流程,包括:设定匿名度k,执行微聚集隐私保护算法(Ada-MAPP)的处理流程,产生隐私保护数据集(1)设定匿名度k匿名度是用于控制一个数据集中相同记录的个数;对于一个含有k个用户的数据集,如果这些用户的行为数据都相同,那么攻击者成功推断其中任何一个用户的概率为1/k;(2)微聚集隐私保护算法的处理,具体步骤如下:对于用户行为模式的元信息集,匿名度k;1)计算元信息集的整体质...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。