一种基于多元化策略的大规模社交网络用户抽样方法技术

技术编号：40240411 阅读：8 留言：0更新日期：2024-02-02 22:38

本发明专利技术专利提出了一种基于多元化策略的大规模社交网络用户抽样方法。该方法通过有效地解决了在大规模社交网络中进行用户抽样时的传统挑战，尤其是抽样偏差和抽样效率问题。具体地，本发明专利技术通过引入多元化策略，即在用户抽样过程中，尽可能地涵盖不同的社区、用户类型和用户行为，从而提高抽样的代表性和准确性。同时，为了提高抽样效率，本发明专利技术还提出了一种基于图论和机器学习的优化抽样算法，该算法能够快速而准确地对大规模社交网络进行抽样。最后，该发明专利技术还通过大量的实验证明了该方法的有效性和优越性。本发明专利技术不仅可以应用于社交网络用户研究，也可以用于其他大规模网络数据抽样，如互联网数据、电信数据等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据分析领域，更具体的说涉及一种基于多元化策略的大规模社交网络用户抽样方法。

技术介绍

1、现有的社交网络用户抽样方法大多采用随机抽样或者系统抽样，通过统一的抽样规则从所有用户中抽取一部分作为样本。这种方法简单易行，但是并不能够确保抽样的准确性和复杂性。因为社交网络用户的行为模式和社交关系链非常复杂，单一的抽样方法很难捕捉到社交网络用户的全面特性。尤其是在大规模社交网络中，用户的行为模式和社交关系链的差异性更大，采用现有的抽样方法更难得到准确和具有代表性的样本。

2、另外，现有的社交网络用户抽样方法对于抽样后的样本处理方法也存在问题。大多数方法只关注于抽样后的简单描述分析，缺乏对用户行为模式和社交关系的深入解析和研究。

3、因此，现有的社交网络用户抽样方法存在以下主要缺点：一是抽样方法过于简单，无法获取到具有代表性的样本；二是对样本数据的处理和利用不足，无法充分挖掘社交网络数据的潜在价值和意义。

技术实现思路

1、专利技术是一种基于多元化策略的大规模社交网络用户抽样方法，用于对社交网络中的大量用户进行有效的样本抽取。通过收集和分析用户的行为数据和社交关系数据，对用户进行分类，然后再基于多元化策略对每一类用户进行抽样。抽样后的数据用于进行行为模式分析和用户关系网络分析。整个过程旨在从大量的社交网络用户中获取有代表性的数据，为进一步的社交网络研究和商业应用提供数据支持。

2、为了实现上述目的，本专利技术是采用以下技术方案实现的：所述的抽样方法包括：

3、步骤1、通过收集用户在社会网络中的行为数据和社交关系数据对用户进行分析，根据用户的这些数据对社会网络用户进行分类；分类依据包括但不限于基于行为的相似度、基于链接的相似度；

4、步骤2、构建多元化策略，用于确定在每一类用户中抽样的比例；

5、步骤3、对每一类用户执行多元化抽样策略；根据该类别中的用户数量和该类别在整体用户群体中的比例，使用构建的多元化策略确定需要抽取的样本数目；

6、步骤4、对所选出的样本进行进一步的分析和研究，社交网络的行为模式分析、用户关系网络分析；

7、步骤5、输出抽样结果，包括抽样用户的列表，抽样用户的网络行为模式。

8、进一步地，所述的步骤1具体实现方式如下：

9、s101.收集用户在社会网络中的行为数据，包括用户发布的信息数量、喜欢或分享其他用户的信息数量、网站访问频率和时长；

10、s102.收集用户的社交关系数据，包括用户的好友关系、关注关系、组群信息；

11、s103.使用分类算法对用户进行分类，分类的依据是基于行为的相似度，基于链接的相似度；

12、行为相似度的计算，它的数学表达式是：

13、

14、其中a和b分别表示两个用户的行为数据向量，a·b表示a和b的点积，||a||表示a的模，||b||表示b的模；

15、链接相似度的计算，它的数学表达式是：

16、j(a,b)＝|a∩b|/|a∪b|(2)

17、其中，a和b分别为两个用户的链接情况，a∩b表示两个用户链接的交集，a∪b表示两个用户链接的并集。

18、进一步地，所述的步骤2具体实现方式如下：

19、s201统计每一类用户的数量：在对全部用户进行分类后，需要统计每一类用户的数量，记作ni，其中i表示第i类用户；

20、每个类别的用户数ni的计算公式：其中uij表示第i类别中的第j个用户，n为该类别的用户总数；

21、s202计算每类用户在总体中的比例：根据每一类的用户数量ni，可以计算出每一类用户在全部用户中的比例，记作其中n为全部用户数量，pi则为第i类用户的比例；

22、s203构建多元化策略：根据每一类用户的比例pi和业务需求，构建多元化策略，该策略决定在每一类用户中需要抽样的比例；包括对比例大的类别进行较多的抽样，对比例小的类别进行较少的抽样，一般设定每一类抽样所占比例为ri。

23、进一步地，所述的步骤3具体实现方式如下：

24、计算应抽取的样本数：根据上一步骤中构建的多元化抽样策略，以及每一个类别的用户数量ni和该类别在整体用户群体中的比例pi，计算出应该抽取的样本数量si，其中si＝ri*ni，ri为之前设定的每一类的用户的抽样比例。

25、进一步地，所述的步骤4包括

26、(1)行为模式分析：对抽样出的用户样本进行行为模式分析，分析用户的活跃时间预测、用户的发帖习惯、用户关系网络；用户的活跃时间预测采用arima模型，具体如下：

27、确定模型结构：通过检查时间序列的自相关图和偏自相关图，确定arima模型的阶数(p,d,q)；其中，p是自回归部分的阶数，d是差分次数，q是移动平均的阶数；

28、估计模型参数：使用极大似然估计法估计模型参；

29、预测：给定模型结构和参数，使用arima模型进行预测；

30、arima模型的数学公式可以表示为：

31、

32、b表示算子，代表第i步的自回归系数，θi是第i步的移动平均数，et是误差项；

33、(2)采用tf-idf对用户的发帖习惯分析；具体如下：

34、统计词频(tf)：在每一篇文章中统计每个词出现的次数；

35、计算逆文档频率(idf)：计算每个词在所有文档中出现的频率的倒数；

36、计算tf-idf：将tf和idf相乘，得到每个词的tf-idf值；

37、tf-idf的数学公式如下：

38、tf-idf＝tf*idf(4)

39、其中，tf＝词在文档中出现的次数/文档的总词数，idf＝log(总文档数目/含有该词文档的数目)；

40、(3)采用图论对用户关系网络分析，具体如下：

41、构建网络模型：使用图的形式将用户关系网络展示出来；

42、网络特性分析：计算网络的各种特性，如度(d)，聚类系数(c)，平均最短路径(l)；

43、具体计算如下：

44、度公式度(d)＝∑(aij)，其中aij是邻接矩阵的元素；

45、聚类系数公式c：其中ei是节点i的度数，ki是与节点i相连的所有节点间可能存在的连接数；

46、平均最短路径公式其中dij是节点i和节点j之间的最短路程，n是网络中节点的总数。

47、进一步地，所述的步骤5具体表达结果如下：

48、(1)抽样用户的列表根据步骤3中得到的分层抽样结果，列出每一类别中抽取到的用户id或者其他唯一标识，形成一个详细的抽样用户列表；此列表可用于用户行为分析、用户关系网络分析工作中；

49、抽样用户列表以表格形式展现，包括用户id、用户名等用户标识信息，以及用户对应的类别；...

【技术保护点】

1.一种基于多元化策略的大规模社交网络用户抽样方法，其特征在于：所述的抽样方法包括：

2.根据权利要求1所述的一种基于多元化策略的大规模社交网络用户抽样方法，其特征在于：所述的步骤1具体实现方式如下：

3.根据权利要求1所述的一种基于多元化策略的大规模社交网络用户抽样方法，其特征在于：所述的步骤2具体实现方式如下：

4.根据权利要求1所述的一种基于多元化策略的大规模社交网络用户抽样方法，其特征在于：所述的步骤3具体实现方式如下：

5.根据权利要求1所述的一种基于多元化策略的大规模社交网络用户抽样方法，其特征在于：所述的步骤4包括

6.根据权利要求1所述的一种基于多元化策略的大规模社交网络用户抽样方法，其特征在于：所述的步骤5具体表达结果如下：

【技术特征摘要】

1.一种基于多元化策略的大规模社交网络用户抽样方法，其特征在于：所述的抽样方法包括：

2.根据权利要求1所述的一种基于多元化策略的大规模社交网络用户抽样方法，其特征在于：所述的步骤1具体实现方式如下：

3.根据权利要求1所述的一种基于多元化策略的大规模社交网络用户抽样方法，其特征在于：所述的步骤2具体实现方式如下：

4...

【专利技术属性】
技术研发人员：赵静，张帆，吴刚，张璇，丁文兴，
申请(专利权)人：中国标准化研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人