一种识别海量数据构建的关系图中超级节点的方法及装置制造方法及图纸

技术编号：21273574 阅读：56 留言：0更新日期：2019-06-06 08:00

本申请公开了一种识别海量数据构建的关系图中超级节点的方法及装置，该方法包括：构建海量数据的关系图，计算每个节点的度，依据幂律分布计算每个节点的度的出现概率，剔除出现概率小于预设阈值的节点。这样，不仅实现了自动识别复杂网络中的超级节点，并且根据幂律分布，对超级节点进行识别，降低了剔除有意义节点的概率。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别海量数据构建的关系图中超级节点的方法及装置
本专利技术涉及数据处理领域，尤其涉及一种识别海量数据构建的关系图中超级节点的方法及装置。
技术介绍
随着互联网技术的发展，计算机平台上记录了用户海量的数据，为了对某些问题进行研究，例如在欺诈黑名单标签传播分析或者反洗钱转账关系分析等问题，需要利用海量数据生成复杂关系网络，并对复杂网络进行分析。然而，复杂网络中包含无标度网络，无标度网络具有严重的异制性，少数节点往往拥有大量的连接，而大部分节点确拥有少量的连接。但是，在对无标度网络进行研究时，更关注的是拥有少量连接的节点，对于拥有大量连接的超级节点不仅影响性能，对结果也是一种干扰。例如，在对复杂网络执行“二跳邻居”算法时，该算法的实现使用两次遍历，首先进行初始化的时候将自己的生命值设置为2，第一次遍历向邻居节点传播自身携带的ID和生命值1的消息，第二次遍历的时候收到消息的邻居再转发一次，生命值为0，最终对带有消息为0ID的节点进行统计。但是，若复杂网络中包含超级节点，则这些节点会在第一轮传播后收到过多消息而使关系图瘫痪而无法进行下一步运算。现有技术中，通常通过人工经...

【技术保护点】
1.一种识别海量数据构建的关系图中超级节点的方法，其特征在于，包括：构建海量数据的关系图；所述关系图包含节点和通过两个节点连接构成的边；计算每个节点的度；依据幂律分布，计算每个节点的度的出现概率；剔除出现概率小于预设阈值的节点。

【技术特征摘要】
1.一种识别海量数据构建的关系图中超级节点的方法，其特征在于，包括：构建海量数据的关系图；所述关系图包含节点和通过两个节点连接构成的边；计算每个节点的度；依据幂律分布，计算每个节点的度的出现概率；剔除出现概率小于预设阈值的节点。2.根据权利要求1所述的方法，其特征在于，所述构建海量数据的关系图，包括：依据目标数据确定各个节点；根据目标数据确定各个节点之间的关系，得到每个节点之间关联关系，并将具有关联关系的两个节点相连接得到关系图的边。3.根据权利要求1所述的方法，其特征在于，所述构建海量数据的关系图后，还包括：对所述海量数据的关系图中的边进行去重处理。4.根据权利要求1所述的方法，其特征在于，所述依据幂律分布，计算每个节点的度的出现概率，包括：依据幂律分布，对每个节点的度进行拟合，得到幂律分布的参数值；根据幂律分布的参数值和每个节点的度，计算每个节点的度的出现概率。5.根据权利要求4所述的方法，其特征在于，所述依据幂律分布，对每个节点的度进行拟合，得到幂律分布的参数值，包括：采用最大似然法对每个节点的度进行拟合，计算幂律分布的参数值。6.一种识别海量数据构建的关系图中超级节点...

【专利技术属性】
技术研发人员：张勇，袁帅，王臻，郭帅，郭佳敏，
申请(专利权)人：中国农业银行股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人