【技术实现步骤摘要】
一种识别海量数据构建的关系图中超级节点的方法及装置
本专利技术涉及数据处理领域,尤其涉及一种识别海量数据构建的关系图中超级节点的方法及装置。
技术介绍
随着互联网技术的发展,计算机平台上记录了用户海量的数据,为了对某些问题进行研究,例如在欺诈黑名单标签传播分析或者反洗钱转账关系分析等问题,需要利用海量数据生成复杂关系网络,并对复杂网络进行分析。然而,复杂网络中包含无标度网络,无标度网络具有严重的异制性,少数节点往往拥有大量的连接,而大部分节点确拥有少量的连接。但是,在对无标度网络进行研究时,更关注的是拥有少量连接的节点,对于拥有大量连接的超级节点不仅影响性能,对结果也是一种干扰。例如,在对复杂网络执行“二跳邻居”算法时,该算法的实现使用两次遍历,首先进行初始化的时候将自己的生命值设置为2,第一次遍历向邻居节点传播自身携带的ID和生命值1的消息,第二次遍历的时候收到消息的邻居再转发一次,生命值为0,最终对带有消息为0ID的节点进行统计。但是,若复杂网络中包含超级节点,则这些节点会在第一轮传播后收到过多消息而使关系图瘫痪而无法进行下一步运算。现有技术中,通常通过人工经 ...
【技术保护点】
1.一种识别海量数据构建的关系图中超级节点的方法,其特征在于,包括:构建海量数据的关系图;所述关系图包含节点和通过两个节点连接构成的边;计算每个节点的度;依据幂律分布,计算每个节点的度的出现概率;剔除出现概率小于预设阈值的节点。
【技术特征摘要】
1.一种识别海量数据构建的关系图中超级节点的方法,其特征在于,包括:构建海量数据的关系图;所述关系图包含节点和通过两个节点连接构成的边;计算每个节点的度;依据幂律分布,计算每个节点的度的出现概率;剔除出现概率小于预设阈值的节点。2.根据权利要求1所述的方法,其特征在于,所述构建海量数据的关系图,包括:依据目标数据确定各个节点;根据目标数据确定各个节点之间的关系,得到每个节点之间关联关系,并将具有关联关系的两个节点相连接得到关系图的边。3.根据权利要求1所述的方法,其特征在于,所述构建海量数据的关系图后,还包括:对所述海量数据的关系图中的边进行去重处理。4.根据权利要求1所述的方法,其特征在于,所述依据幂律分布,计算每个节点的度的出现概率,包括:依据幂律分布,对每个节点的度进行拟合,得到幂律分布的参数值;根据幂律分布的参数值和每个节点的度,计算每个节点的度的出现概率。5.根据权利要求4所述的方法,其特征在于,所述依据幂律分布,对每个节点的度进行拟合,得到幂律分布的参数值,包括:采用最大似然法对每个节点的度进行拟合,计算幂律分布的参数值。6.一种识别海量数据构建的关系图中超级节点...
【专利技术属性】
技术研发人员:张勇,袁帅,王臻,郭帅,郭佳敏,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。