【技术实现步骤摘要】
一种数据处理方法、装置、设备以及存储介质
[0001]本申请涉及计算机领域,尤其涉及一种数据处理方法、装置、设备以及存储介质。
技术介绍
[0002]社群是由无数群成员构成的,网络的社群划分(也称为社团挖掘)广泛应用于各个领域,通过社群划分可以有效地解释网络的构成、功能及网络中节点的行为。社群划分可以看作是一种聚类算法。社群划分是为了找到网络中的社群,使得社群内部节点之间的相互作用远强于它们与社群外部节点的相互作用。
[0003]现有对社交网络的社群划分的学术研究很多,但是满足特定规模限制的社群划分研究却非常匮乏。在实际业务中,不同社群间规模差异越大,社交网络的营销设计越难,社群内的群成员对于社交网络的体验也越差。
[0004]因此目前急需要一种可以按照社群规模对社交网络中的对象进行社群划分的方案。
技术实现思路
[0005]本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,用于基于社群规模限制进行社群划分。
[0006]有鉴于此,本申请一方面提供一种数据处理方法,包括:获取第一图结构,该第一图结构包括用于指示对象的对象顶点和用于指示对象之间的历史交互行为的边;根据该第一图结构生成第一社群集合和第二社群集合,该第一社群集合中每一个社群的第一社群规模大于该第二社群集合中每一个社群的社群规模,该社群规模用于指示社群包括的对象数量;根据该第一社群规模和该第二社群集合包括的对象数量从该第二社群集合中确定第三社群集合和第四社群集合,其中,该第三社群集合中每一个社群的第二社群规模 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取第一图结构,所述第一图结构包括用于指示对象的对象顶点和用于指示对象之间的历史交互行为的边;根据所述第一图结构生成第一社群集合和第二社群集合,所述第一社群集合中每一个社群的第一社群规模大于所述第二社群集合中每一个社群的社群规模,所述社群规模用于指示社群包括的对象数量;根据所述第一社群规模和所述第二社群集合包括的对象数量,从所述第二社群集合中确定第三社群集合和第四社群集合,其中,所述第三社群集合中每一个社群的第二社群规模大于所述第四社群集合中每一个社群的第三社群规模;根据所述第三社群集合和所述第四社群集合构建二分图,所述二分图的顶点为所述第三社群集合中的社群和所述第四社群集合中的社群,所述二分图的边用于指示所述第三社群集合中的社群和所述第四社群集合中的社群的历史交互行为;根据所述二分图将所述第四社群集合中的社群与所述第三社群集合中的社群进行合并,使得合并得到的社群的社群规模等于所述第一社群规模。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一社群规模和所述第二社群集合包括的对象数量,从所述第二社群集合中确定第三社群集合和第四社群集合,包括:根据所述第一社群规模的上限和下限求平均值;根据所述平均值和所述第二社群集合包括的对象数量,确定合并后的社群数量N,所述N为整数;对所述第二社群集合中的各个社群按照社群规模和社群聚类系数进行降序排序;选择排序前N个社群生成所述第三社群集合,并把所述第二社群集合中剩下的社群生成所述第四社群集合。3.根据权利要求2所述的方法,其特征在于,对所述第二社群集合中的各个社群按照社群规模和社群聚类系数进行降序排序包括:对所述第二社群集合中的各个社群按照社群规模进行降序排序;在社群规模相同时,按照所述社群聚类系数进行降序排序,所述社群聚类系数用于指示社群的稠密程度。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一图结构生成第一社群集合和第二社群集合包括:利用社群挖掘算法从所述第一图结构生成多个社群,所述多个社群中包括社群规模大于所述第一社群规模的第一类社群、社群规模满足所述第一社群规模的第二类社群以及社群规模小于所述第一社群规模的第三类社群;将所述第一类社群进行切分得到所述第二类社群和所述第三类社群;根据所述第二类社群生成所述第一社群集合;根据所述第三类社群生成所述第二社群集合。5.根据权利要求4所述的方法,其特征在于,所述将所述第一类社群进行切分得到所述第二类社群和所述第三类社群包括:计算所述第一类社群里各个边的边权值;迭代删除边权值最小的边直到得到一个所述第二类社群以及多个所述第三类社群。
6.根据权利要求5所述的方法,其特征在于,所述计算所述第一类社群里各个边的边权值包括:统计所述第一类社群里各个边对应的对象的交互行为以及所述交互行为的统计次数,所述交互行为包括对象之间的对局,对象之间的聊天以及对象之间的预约;根据所述交互行为的权重参数和统计次数,计算所述第一类社群里各个边的边权值。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述二分图将所述第四社群集合中的社群与所述第三社群集合中的社群进行合并包括:计算所述第二分图中所述第四社群集合中的社群与所述第三社群集合中的社群的边权信息;根据所述边权信息以及合并规则,合并所述第四社群集合中的社群和所述第三社群集合中的社群。8.根据权利要求7所述的方法,其特征在于,所述计算所述第二分图中所述第四社群集合中的社群与所述第三社群集合中的社群的边权信息包括:根据所述第四社群集合中的社群与所述第三社群集合中的社群的连接关系,计算所述第四社群集合中的社群与所述第三社群集合中的社群的连边信息,所述连边信息用于指示两个社群包括的对象之间的连边总数以及连边的权重之和;根据余弦相似性,计算所述第四社群集合中社群与所述第三社群集合中的社群之间的时段相似性;统计所述第四社群集合中社群与所述第三社群集合中的社群之间包括特定对象的第一差异性;统计所述第四社群集合中社群与所述第三社群集合中的社群之间对象类型分布的第二差异性;其中,所述连边信息、所述时...
【专利技术属性】
技术研发人员:卢璨,孙嘉辰,林文清,
申请(专利权)人:深圳市腾讯信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。