【技术实现步骤摘要】
基于持久性子图模式挖掘的社交网络异常事件检测方法
[0001]本申请涉及数据挖掘
,特别是涉及一种基于持久性子图模式挖掘的社交网络异常事件检测方法。
技术介绍
[0002]图流分析在各个领域越来越重要,因为许多实际图应用具有天然的动态性。以往图流的子图发现问题主要集中在频率和突发等特征上。持久性作为一种新的特征,正受到越来越多的关注。持久子图发现突出了子图在许多时间窗口中重复出现的行为,这对于许多实际应用程序(例如异常检测)是至关重要的。尽管持久子图发现在现实生活中有许多有趣的应用,但没有现成的解决方案可以有效地挖掘持久模式。
[0003]最近的一个发展是以图流形式组织的高吞吐量、动态图结构化数据的激增。例如,考虑知识图DBpedia,它根据维基百科中的变化日志流每天更新。图流分析在子图匹配、频繁模式挖掘和突发模式挖掘等各个领域越来越重要。除了上述特征之外,另一个重要特征—持久性也越来越受到关注。给定子图模式P和具有T个翻转窗口的图流,P的持久性定义为P出现的时间窗口的数量。如果P的持久性大于用户定义的阈值,就说P是持久性模式。持续模式通常表示异常或值得注意的事件的发生。接下来,使用一个检测计算机网络中异常行为的示例来说明其基本思想。
[0004]异常行为具有模式1。安全分析师可以通过监控网络流量中异常子图模式的发生(基于子图同构的语义)来识别异常行为。如图1所示,一些异常行为试图通过在多个时间窗口中传播其通信来隐藏。结果,这些模式无法通过找到频繁的子图模式来检测。为了检测这种威胁,我们应该使用 ...
【技术保护点】
【技术特征摘要】
1.一种基于持久性子图模式挖掘的社交网络异常事件检测方法,其特征在于,所述方法包括:获取当前时间戳的社交网络快照图,从所述社交网络快照图中抽取得到包含当前时间戳的新插入边的新k边子图集;所述新k边子图集中包括多个新k边子图;所述社交网络快照图为包含历史时间窗口内的所有边,以及当前时间窗口内的历史时间戳的所有边和当前时间戳的新插入边的导出图;每条边由2个顶点连接而构成,顶点表示用户,边表示用户之间互动形成的事件;获取当前时间戳的辅助数据结构;所述辅助数据结构由d个数组组成;每个数组由l个存储桶组成;每个存储桶包括一个键值对;每个键值对中的键对应一个k边子图模式,值对应所述k边子图模式的持久累计值;在一个时间窗口内,一个存储桶至多参与一次持久值计数;每一k边子图模式对应一个事件;获取预先构建的哈希函数集;所述哈希函数集中,一个哈希函数对应一个数组,且哈希函数与数组均按照编号排列;采用当前编号的哈希函数将各个新k边子图映射到对应编号的数组的存储桶中,当所述存储桶为非空桶且所述非空桶在当前时间窗口内尚未参与过持久值计数时,若新k边子图与所述非空桶对应的k边子图模式同构,所述非空桶参与持久值计数并更新对应的k边子图模式的持久累计值;若经过当前时间窗口后存在持久累计值超过预设的持久阈值,判定相应的k边子图模式对应的事件为异常事件。2.根据权利要求1所述的方法,其特征在于,所述存储桶中还包括计数状态字段;所述计数状态字段为True或False;当所述存储桶在当前时间窗口内尚未参与过持久值计数时,对应的计数状态字段为True;当所述存储桶在当前时间窗口内已参与过一次持久值计数时,对应的计数状态字段为False。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:采用当前编号的哈希函数将各个新k边子图映射到对应编号的数组的存储桶中,当所述存储桶为非空桶且所述非空桶在当前时间窗口内已参与过一次持久值计数时,继续采用下一编号的哈希函数将新k边子图映射到对应编号的数组的存储桶中。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:采用当前编号的哈希函数将各个新k边子图映射到对应编号的数组的存储桶中,当所述存储桶为非空桶且所述非空桶在当前时间窗口内尚未参与过持久值计数时,若新k边子图与所述非空桶对应的k边子图模式不同构,则采用下一编号的哈希函数将新k边子图映射到对应编号的数组的存储桶中。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:采用当前编号的哈希函数将各个新k边子图映射到对应编号的数组的存储桶中,当所述存储桶为空桶时,计算所述新k边子图的模式并将其插入到所述空桶中得到更新的辅助数据结构。6.根据权利要求1所述的方法,其特征在于,采用哈希函数将新k边子图映射到对应的
存储桶的步骤包括:利用图不变量将各个新k边子图编码为字符串表示,使得同构子图被映射到对应的存储桶;其中,利用图不变量将各个新k边子图编码为字符串表示,具体包括:分别将各个新k边子图e=(v
i
,v
j
,t(e))的每个顶点的度和标签连接在一起,作为对应顶点的新标签l(v);其中,v
i
,v
j
为新k边子图e中的顶点,t(e)为新k边子图e中对应顶点构成的边;根据所述顶点的新标签得到所述新k边子图中每条边的新标签l(e)=(l(v
i
),l(v
j
));根据所述社交网络快照图的各个边对应的单边模式出现的顺序为每条边指定权重w(e);其中,单边模式首次出现的越早,对应的权重越小;若w(e
i
)<...
【专利技术属性】
技术研发人员:张千桢,黄楚,郭得科,罗来龙,任棒棒,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。