The invention discloses a low resource consumption super node identification and filtering method and system for large flow real-time graph data, belonging to the field of large data preprocessing. The method includes: 1) receiving graph data and format transformation; 2) filtering data after format transformation according to filtering rules; 3) identifying super nodes in filtered data, and dynamically modifying the filtering rules according to the identified super nodes. The system includes data receiving module, data filtering module, filtering rule management module and super node identification module. The invention can identify super nodes in massive real-time graph data stream, and is a low resource consumption super node identification scheme, which can identify super nodes in massive data with very few resources.
【技术实现步骤摘要】
一种面向大流量实时图数据的低资源消耗的超级节点识别过滤方法和系统
本专利技术属于大数据预处理领域,涉及一种在海量实时图数据场景下,识别和过滤超级节点的方法和系统。
技术介绍
随着计算机技术的不断发展和信息化程度的不断提高,数据量在迅速增长,数据结构也越来越复杂,传统的关系型数据模型在很多场景下已难以使用,非关系型数据模型越来约流行。图数据模型是非关系数据模型中的一种,模型中的基本元素为点和边,分别可以用来表示现实中的实体和实体之间的关系,因此图数据模型非常适合存储关系网络等复杂的数据。以图数据模型为基础的数据库是图数据库,图数据库是NoSQL数据库的一种类型。超级节点(supernode)指的是有非常多边与其相连的点。超级节点是目前所有图数据库共同面临的难题,在图的遍历过程中,如果遇到超级节点,图检索的结果将瞬间变得非常大,导致遍历结果集太多或者直接导致图遍历不能继续进行,而图遍历正是图数据库的核心功能。太多的超级节点将直接导致图库失去使用价值。而且在很多业务场景下,含有超级节点的数据几乎没有任何价值,甚至严重影响其他数据质量。另一方面,含有超级节点的数据通常是不正常数据,如在邮件模型中,邮箱地址为一个点,每次发送邮件都会产生一条边,边的起始点为发送者,终止点为收件者。正常的邮箱只会产生少量的边,而发送垃圾邮件的邮箱则动辄就会发送百万甚至更多的邮件。及时识别出发送垃圾邮件的邮箱(超级节点)并屏蔽(过滤)是非常有必要的。同样适用于在通话和短信数据中识别出诈骗电话。因此及时识别出图数据中的超级节点是非常有必要的。传统的超级节点识别方法是,对每个点建立一个计数器 ...
【技术保护点】
1.一种面向大流量实时图数据的超级节点识别与过滤方法,其特征在于,包括以下步骤:1)接收图数据并对其进行格式转化;2)根据过滤规则对格式转化之后的数据进行过滤;3)识别过滤之后的数据中的超级节点,并根据识别出的超级节点对所述过滤规则进行动态修改。
【技术特征摘要】
1.一种面向大流量实时图数据的超级节点识别与过滤方法,其特征在于,包括以下步骤:1)接收图数据并对其进行格式转化;2)根据过滤规则对格式转化之后的数据进行过滤;3)识别过滤之后的数据中的超级节点,并根据识别出的超级节点对所述过滤规则进行动态修改。2.根据权利要求1所述的方法,其特征在于,步骤1)从包括csv文件、消息队列在内的数据源读取数据,将其格式化为traplet数据并放入有界队列;所述triplet数据由两个点,两个点之间的关系,以及点与关系的属性构成。3.根据权利要求2所述的方法,其特征在于,步骤2)从有界队列中取出格式化之后的triplet数据,按照过滤规则对其进行匹配,如果符合过滤规则,则丢弃该条数据,否则进入步骤3)进行处理。4.根据权利要求3所述的方法,其特征在于,步骤3)在初始化时创建一个计数器counter,一个变量total并为其赋值0,一个常量chunksize,一个常量maxEdge,其中,counter用于记录图数据中每个点出现过的次数,其键为图数据中的点,值为该点出现过的次数;total是一个长整型变量,用于记录当前处理过的点的总量;chunksize是一个长整型常量,根据具体情况调整大小;maxEdge是一个长整型常量,是判断一个点是否为超级节点的阈值,根据具体情况调整大小。5.根据权利要求4所述的方法,其特征在于,步骤3)采用以下步骤识别超级节点:a)从triplet数据中依次取出点,如果计数器counter中存在该点,将其计数加1,否则在计数器中加入该点,并将其计数设置为1;b)将total增加1,如果total对chunksize取余等于0,进入步骤c),否则返回步骤2);c)遍历当前计数器,如果当前点的计数大于等于maxEdge,该点为新的超级节点,将该点从计数器中删除并作为新的过滤规则;如果当前点的计数等于1,将该点从计数器中移除,否则将当前点的计数减1。6.一种面向大流量实时图数据的超级节点识别与过滤系统,其特征在于,包括:数据接收模块,负责接收图数...
【专利技术属性】
技术研发人员:黄亮,孙立远,曹开研,王振宇,李斌斌,王树鹏,
申请(专利权)人:国家计算机网络与信息安全管理中心,中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。