一种数据处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:39243709 阅读:12 留言:0更新日期:2023-10-30 11:56
本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,包括:获取第一图结构;根据第一图结构生成第一社群集合和第二社群集合;根据第一社群规模和第二社群集合包括的对象数量从第二社群集合中确定第三社群集合和第四社群集合;根据第三社群集合和第四社群集合构建二分图,二分图的顶点为第三社群集合中的社群和第四社群集合中的社群,二分图的边用于指示第三社群集合中的社群和第四社群集合中的社群的历史交互行为;根据二分图将第四社群集合中的社群与第三社群集合中的社群进行合并,使得合并得到的社群的社群规模等于第一社群规模。本申请提供的技术方案可应用于人工智能、云技术等领域。云技术等领域。云技术等领域。

【技术实现步骤摘要】
一种数据处理方法、装置、设备以及存储介质


[0001]本申请涉及计算机领域,尤其涉及一种数据处理方法、装置、设备以及存储介质。

技术介绍

[0002]社群是由无数群成员构成的,网络的社群划分(也称为社团挖掘)广泛应用于各个领域,通过社群划分可以有效地解释网络的构成、功能及网络中节点的行为。社群划分可以看作是一种聚类算法。社群划分是为了找到网络中的社群,使得社群内部节点之间的相互作用远强于它们与社群外部节点的相互作用。
[0003]现有对社交网络的社群划分的学术研究很多,但是满足特定规模限制的社群划分研究却非常匮乏。在实际业务中,不同社群间规模差异越大,社交网络的营销设计越难,社群内的群成员对于社交网络的体验也越差。
[0004]因此目前急需要一种可以按照社群规模对社交网络中的对象进行社群划分的方案。

技术实现思路

[0005]本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,用于基于社群规模限制进行社群划分。
[0006]有鉴于此,本申请一方面提供一种数据处理方法,包括:获取第一图结构,该第一图结构包括用于指示对象的对象顶点和用于指示对象之间的历史交互行为的边;根据该第一图结构生成第一社群集合和第二社群集合,该第一社群集合中每一个社群的第一社群规模大于该第二社群集合中每一个社群的社群规模,该社群规模用于指示社群包括的对象数量;根据该第一社群规模和该第二社群集合包括的对象数量从该第二社群集合中确定第三社群集合和第四社群集合,其中,该第三社群集合中每一个社群的第二社群规模大于该第四社群集合中每一个社群的第三社群规模;根据该第三社群集合和该第四社群集合构建二分图,该二分图的顶点为该第三社群集合中的社群和该第四社群集合中的社群,该二分图的边用于指示该第三社群集合中的社群和该第四社群集合中的社群的历史交互行为;根据该二分图将该第四社群集合中的社群与该第三社群集合中的社群进行合并,使得合并得到的社群的社群规模等于该第一社群规模。
[0007]本申请另一方面提供一种数据处理装置,包括:
[0008]获取模块,用于获取第一图结构,该第一图结构包括用于指示对象的对象顶点和用于指示对象之间的历史交互行为的边;
[0009]处理模块,用于根据该第一图结构生成第一社群集合和第二社群集合,该第一社群集合中每一个社群的第一社群规模大于该第二社群集合中每一个社群的社群规模,该社群规模用于指示社群包括的对象数量;根据该第一社群规模和该第二社群集合包括的对象数量从该第二社群集合中确定第三社群集合和第四社群集合,其中,该第三社群集合中每一个社群的第二社群规模大于该第四社群集合中每一个社群的第三社群规模;根据该第三
社群集合和该第四社群集合构建二分图,该二分图的顶点为该第三社群集合中的社群和该第四社群集合中的社群,该二分图的边用于指示该第三社群集合中的社群和该第四社群集合中的社群的历史交互行为;根据该二分图将该第四社群集合中的社群与该第三社群集合中的社群进行合并,使得合并得到的社群的社群规模等于该第一社群规模。
[0010]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于根据该第一社群规模的上限和下限求均平均值;
[0011]根据该平均值和该第二社群集合包括的对象数量确定合并后的社群数量N,该N为整数;
[0012]对该第二社群集合中的各个社群按照社群规模和社群聚类系数进行降序排序,该社群聚类系数用于指示社群的稠密程度;
[0013]选择排序前N个社群生成该第三社群集合,该第二社群集合中剩下的社群生成该第四社群集合。
[0014]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于对该第二社群集合中的各个社群按照社群规模进行降序排序;
[0015]在社群规模相同时,按照该社群聚类系统进行降序排序。
[0016]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于利用社群挖掘算法从该第一图结构生成多个社群,该多个社群中包括社群规模大于该第一社群规模的第一类社群、社群规模满足该第一社群规模的第二类社群以及社群规模小于该第一社群规模的第三类社群;
[0017]将该第一类社群进行切分得到该第二类社群和该第三类社群;
[0018]根据该第二类社群生成该第一社群集合;
[0019]根据该第三类社群生成该第二社群集合。
[0020]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于计算该第一类社群里各个边的边权值;
[0021]迭代删除边权值最小的边直到得到一个该第二类社群以及多个该第三类社群。
[0022]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于统计该第一类社群里各个边对应的对象的交互行为以及该交互行为的统计次数,该交互行为包括对象之间的对局,对象之间的聊天以及对象之间的预约;
[0023]根据该交互行为的权重参数和统计次数计算该第一类社群里各个边的边权值。
[0024]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于计算该第二分图中该第四社群集合中的社群与该第三社群集合中的社群的边权信息;
[0025]根据该边权信息以及合并规则合并该第四社群集合中的社群和该第三社群集合中的社群。
[0026]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于根据该第四社群集合中的社群与该第三社群集合中的社群的连接关系计算该第四社群集合中的社群与该第三社群集合中的社群的连边信息,该连边信息用于指示两个社群包括的对象之间的连边总数以及连边的权重之和;
[0027]根据余弦相似性计算该第四社群集合中社群与该第三社群集合中的社群之间的
时段相似性;
[0028]统计该第四社群集合中社群与该第三社群集合中的社群之间包括特定对象的第一差异性;
[0029]统计该第四社群集合中社群与该第三社群集合中的社群之间对象类型分布的第二差异性;
[0030]其中,该连边信息、该时段相似性、该第一差异性和该第二差异性作为该边权信息。
[0031]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于初始标记该第四社群集合中的每个社群的状态为未匹配,并获取该第三社群集合中每个社群的社群规模信息以及初始标记该第三社群集合中的每个社群的状态为未饱和;
[0032]将该二分图的边按照该边权信息进行排序;
[0033]根据该排序获取第一条边对应的社群信息,该社群信息用于指示第一条边对应的第一社群和第二社群的状态和社群规模信息,其中,该第一社群为归属于该第四社群集合的社群,该第二社群为归属于该第三社群集合的社群;
[0034]在该社群信息指示该第一社群的状态为未匹配,该第二社群的状态为未饱和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取第一图结构,所述第一图结构包括用于指示对象的对象顶点和用于指示对象之间的历史交互行为的边;根据所述第一图结构生成第一社群集合和第二社群集合,所述第一社群集合中每一个社群的第一社群规模大于所述第二社群集合中每一个社群的社群规模,所述社群规模用于指示社群包括的对象数量;根据所述第一社群规模和所述第二社群集合包括的对象数量,从所述第二社群集合中确定第三社群集合和第四社群集合,其中,所述第三社群集合中每一个社群的第二社群规模大于所述第四社群集合中每一个社群的第三社群规模;根据所述第三社群集合和所述第四社群集合构建二分图,所述二分图的顶点为所述第三社群集合中的社群和所述第四社群集合中的社群,所述二分图的边用于指示所述第三社群集合中的社群和所述第四社群集合中的社群的历史交互行为;根据所述二分图将所述第四社群集合中的社群与所述第三社群集合中的社群进行合并,使得合并得到的社群的社群规模等于所述第一社群规模。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一社群规模和所述第二社群集合包括的对象数量,从所述第二社群集合中确定第三社群集合和第四社群集合,包括:根据所述第一社群规模的上限和下限求平均值;根据所述平均值和所述第二社群集合包括的对象数量,确定合并后的社群数量N,所述N为整数;对所述第二社群集合中的各个社群按照社群规模和社群聚类系数进行降序排序;选择排序前N个社群生成所述第三社群集合,并把所述第二社群集合中剩下的社群生成所述第四社群集合。3.根据权利要求2所述的方法,其特征在于,对所述第二社群集合中的各个社群按照社群规模和社群聚类系数进行降序排序包括:对所述第二社群集合中的各个社群按照社群规模进行降序排序;在社群规模相同时,按照所述社群聚类系数进行降序排序,所述社群聚类系数用于指示社群的稠密程度。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一图结构生成第一社群集合和第二社群集合包括:利用社群挖掘算法从所述第一图结构生成多个社群,所述多个社群中包括社群规模大于所述第一社群规模的第一类社群、社群规模满足所述第一社群规模的第二类社群以及社群规模小于所述第一社群规模的第三类社群;将所述第一类社群进行切分得到所述第二类社群和所述第三类社群;根据所述第二类社群生成所述第一社群集合;根据所述第三类社群生成所述第二社群集合。5.根据权利要求4所述的方法,其特征在于,所述将所述第一类社群进行切分得到所述第二类社群和所述第三类社群包括:计算所述第一类社群里各个边的边权值;迭代删除边权值最小的边直到得到一个所述第二类社群以及多个所述第三类社群。
6.根据权利要求5所述的方法,其特征在于,所述计算所述第一类社群里各个边的边权值包括:统计所述第一类社群里各个边对应的对象的交互行为以及所述交互行为的统计次数,所述交互行为包括对象之间的对局,对象之间的聊天以及对象之间的预约;根据所述交互行为的权重参数和统计次数,计算所述第一类社群里各个边的边权值。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述二分图将所述第四社群集合中的社群与所述第三社群集合中的社群进行合并包括:计算所述第二分图中所述第四社群集合中的社群与所述第三社群集合中的社群的边权信息;根据所述边权信息以及合并规则,合并所述第四社群集合中的社群和所述第三社群集合中的社群。8.根据权利要求7所述的方法,其特征在于,所述计算所述第二分图中所述第四社群集合中的社群与所述第三社群集合中的社群的边权信息包括:根据所述第四社群集合中的社群与所述第三社群集合中的社群的连接关系,计算所述第四社群集合中的社群与所述第三社群集合中的社群的连边信息,所述连边信息用于指示两个社群包括的对象之间的连边总数以及连边的权重之和;根据余弦相似性,计算所述第四社群集合中社群与所述第三社群集合中的社群之间的时段相似性;统计所述第四社群集合中社群与所述第三社群集合中的社群之间包括特定对象的第一差异性;统计所述第四社群集合中社群与所述第三社群集合中的社群之间对象类型分布的第二差异性;其中,所述连边信息、所述时...

【专利技术属性】
技术研发人员:卢璨孙嘉辰林文清
申请(专利权)人:深圳市腾讯信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1