基于持久性子图模式挖掘的社交网络异常事件检测方法技术

技术编号:37768824 阅读:13 留言:0更新日期:2023-06-06 13:31
本申请涉及基于持久性子图模式挖掘的社交网络异常事件检测方法,包括:抽取当前时间戳社交网络图中的新k边子图集并获取辅助数据结构;辅助数据结构由d个数组组成;各数组由l个存储桶组成;一个存储桶对应一个键值对;键对应一个k边子图模式,值对应k边子图模式的持久累计值;采用当前编号的哈希函数将各个新k边子图映射到对应数组的存储桶中,若存储桶为非空桶且非空桶在当前时间窗口内未参与过持久值计数且新k边子图与非空桶的k边子图模式同构,非空桶参与持久值计数并更新对应k边子图模式的持久累计值;若经过当前时间窗口后存在持久累计值超过阈值,判定相应k边子图模式对应的事件为异常事件。本方法能兼顾检测的准确性和实时性。确性和实时性。确性和实时性。

【技术实现步骤摘要】
基于持久性子图模式挖掘的社交网络异常事件检测方法


[0001]本申请涉及数据挖掘
,特别是涉及一种基于持久性子图模式挖掘的社交网络异常事件检测方法。

技术介绍

[0002]图流分析在各个领域越来越重要,因为许多实际图应用具有天然的动态性。以往图流的子图发现问题主要集中在频率和突发等特征上。持久性作为一种新的特征,正受到越来越多的关注。持久子图发现突出了子图在许多时间窗口中重复出现的行为,这对于许多实际应用程序(例如异常检测)是至关重要的。尽管持久子图发现在现实生活中有许多有趣的应用,但没有现成的解决方案可以有效地挖掘持久模式。
[0003]最近的一个发展是以图流形式组织的高吞吐量、动态图结构化数据的激增。例如,考虑知识图DBpedia,它根据维基百科中的变化日志流每天更新。图流分析在子图匹配、频繁模式挖掘和突发模式挖掘等各个领域越来越重要。除了上述特征之外,另一个重要特征—持久性也越来越受到关注。给定子图模式P和具有T个翻转窗口的图流,P的持久性定义为P出现的时间窗口的数量。如果P的持久性大于用户定义的阈值,就说P是持久性模式。持续模式通常表示异常或值得注意的事件的发生。接下来,使用一个检测计算机网络中异常行为的示例来说明其基本思想。
[0004]异常行为具有模式1。安全分析师可以通过监控网络流量中异常子图模式的发生(基于子图同构的语义)来识别异常行为。如图1所示,一些异常行为试图通过在多个时间窗口中传播其通信来隐藏。结果,这些模式无法通过找到频繁的子图模式来检测。为了检测这种威胁,我们应该使用持久性而不是频率作为指标。图1显示了两种通信模式及其在相应时间窗口内的匹配结果。P1是通过找到频繁子图模式检测到的模式,这只是一种通用的广播机制,不能提供有价值的信息。P2是通过使用持久性检测的模式,表示攻击模式。P2描述了信息泄露,被攻击主机从机器人程序接收命令,并与导致数据泄露的受损网站交换数据。
[0005]形式上,给定图流G、持久性阈值δ和整数k,连续持久模式发现问题是找到至少出现在δ个翻转窗口中的k边子图模式。尽管重要,但持续的持久模式发现问题缺乏专门的技术处理。一种简单的方法是枚举每个时间窗口中所有可能的k边子图,然后计算这些子图的相应模式,以验证当前窗口中每个模式的存在。该方法需要计算和存储每个时间窗口的所有k边子图,此外,需要重新执行子图同构计算,以验证每个窗口中每个k边模式的存在,这消耗了大量的时间和内存。因此,需要先进的技术来有效地发现事件持久模式,以便及时准确地检测社交网络异常行为。

技术实现思路

[0006]基于此,有必要针对上述技术问题,提供一种能够降低了计算和存储成本.的基于持久性子图模式挖掘的社交网络异常事件检测方法。
[0007]一种基于持久性子图模式挖掘的社交网络异常事件检测方法,包括:
[0008]获取当前时间戳的社交网络快照图,从社交网络快照图中抽取得到包含当前时间戳的新插入边的新k边子图集;新k边子图集中包括多个新k边子图;社交网络快照图为包含历史时间窗口内的所有边,以及当前时间窗口内的历史时间戳的所有边和当前时间戳的新插入边的导出图;每条边由2个顶点连接而构成,顶点表示用户,边表示用户之间互动形成的事件;
[0009]获取当前时间戳的辅助数据结构;辅助数据结构由d个数组组成;每个数组由l个存储桶组成;每个存储桶包括一个键值对;每个键值对中的键对应一个k边子图模式,值对应k边子图模式的持久累计值;在一个时间窗口内,一个存储桶至多参与一次持久值计数;每一k边子图模式对应一个事件;
[0010]获取预先构建的哈希函数集;哈希函数集中,一个哈希函数对应一个数组,且哈希函数与数组均按照编号排列;
[0011]采用当前编号的哈希函数将各个新k边子图映射到对应编号的数组的存储桶中,当存储桶为非空桶且非空桶在当前时间窗口内尚未参与过持久值计数时,若新k边子图与非空桶对应的k边子图模式同构,非空桶参与持久值计数并更新对应的k边子图模式的持久累计值;
[0012]若经过当前时间窗口后存在持久累计值超过预设的持久阈值,判定相应的k边子图模式对应的事件为异常事件。
[0013]上述基于持久性子图模式挖掘的社交网络异常事件检测方法中,对于每个新生成的k边子图,使用哈希函数将其映射到数据辅助结构中的固定位置,以计算模式的持久性,而不是在每个时间窗口计算和存储所有k边子图,这显著降低了内存成本和时间成本。一旦对应的存储桶在当前时间窗口中已计数,计数器将不再计数。也就是说,无论在一个时间窗口中映射到一个存储桶中的子图的数量如何,由于持久性的特性,只能将存储桶中计数1次。因此,本方案可以直接计算每个时间窗口中对应模式的持久性,从而避免存储当前时间窗口的所有子图和重复的子图同构计算,从而大大降低了计算和存储成本,能够确保异常事件检测的准确性和实时性。
附图说明
[0014]图1为两种通信模式及其在相应时间窗口内的匹配结果;
[0015]图2为一个实施例中基于持久性子图模式挖掘的社交网络异常事件检测方法的流程示意图;
[0016]图3为图流G示意图;
[0017]图4为辅助数据结构的示例图;
[0018]图5为基于持久性子图模式挖掘的社交网络异常事件检测方法的算法流程图;
[0019]图6为现有技术findPP的算法流程图;
[0020]图7为一个实施例中计算机设备的内部结构图。
具体实施方式
[0021]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不
用于限定本申请。
[0022]随着互联网的发展,互联网应用获得了飞速发展,社交媒体也获得了飞速发展,而随着技术的发展,话题炒作等也成为了牟取暴利的工具。话题炒作是通过相互转发信息炒作某个话题,从而获得舆论影响力、宣传推广等目的;图成为一种常见数据应用到许多科学和工程中,图可以表示成这样一种结构,即图G=(V,E)是一对集合:一组顶点V表示实体和一组边E表示实体之间的关系或连接。在计算机科学中,网络包含节点和边缘;而在社会科学中,相应的术语则是行为者和关系,在本专利技术中这两个术语具有同等意义。如果用图中的顶点表示参与活动的人,用边表示消息或者人与人之间的关联。那么当发起媒体炒作时,在特定时间或者特定场景下,参与活动的人之间产生多个k边子图。用户之间的相互关注关系就构成了社交网络图。根据社交网络图的动态变化来监测其中k边子图的持久性有助于及时发现社交网络中异常事件的发生并及时作出应对策略。
[0023]在一个实施例中,如图2所示,提供了一种基于持久性子图模式挖掘的社交网络异常事件检测方法,包括以下步骤:
[0024]步骤202,获取当前时间戳的社交网络快照图,从社交网络快照图中抽取得到包含当前时间戳的新插入边的新k边子图集。
[0025]新k边子图集中包括多个新k边子图;社交网络快照图为包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于持久性子图模式挖掘的社交网络异常事件检测方法,其特征在于,所述方法包括:获取当前时间戳的社交网络快照图,从所述社交网络快照图中抽取得到包含当前时间戳的新插入边的新k边子图集;所述新k边子图集中包括多个新k边子图;所述社交网络快照图为包含历史时间窗口内的所有边,以及当前时间窗口内的历史时间戳的所有边和当前时间戳的新插入边的导出图;每条边由2个顶点连接而构成,顶点表示用户,边表示用户之间互动形成的事件;获取当前时间戳的辅助数据结构;所述辅助数据结构由d个数组组成;每个数组由l个存储桶组成;每个存储桶包括一个键值对;每个键值对中的键对应一个k边子图模式,值对应所述k边子图模式的持久累计值;在一个时间窗口内,一个存储桶至多参与一次持久值计数;每一k边子图模式对应一个事件;获取预先构建的哈希函数集;所述哈希函数集中,一个哈希函数对应一个数组,且哈希函数与数组均按照编号排列;采用当前编号的哈希函数将各个新k边子图映射到对应编号的数组的存储桶中,当所述存储桶为非空桶且所述非空桶在当前时间窗口内尚未参与过持久值计数时,若新k边子图与所述非空桶对应的k边子图模式同构,所述非空桶参与持久值计数并更新对应的k边子图模式的持久累计值;若经过当前时间窗口后存在持久累计值超过预设的持久阈值,判定相应的k边子图模式对应的事件为异常事件。2.根据权利要求1所述的方法,其特征在于,所述存储桶中还包括计数状态字段;所述计数状态字段为True或False;当所述存储桶在当前时间窗口内尚未参与过持久值计数时,对应的计数状态字段为True;当所述存储桶在当前时间窗口内已参与过一次持久值计数时,对应的计数状态字段为False。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:采用当前编号的哈希函数将各个新k边子图映射到对应编号的数组的存储桶中,当所述存储桶为非空桶且所述非空桶在当前时间窗口内已参与过一次持久值计数时,继续采用下一编号的哈希函数将新k边子图映射到对应编号的数组的存储桶中。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:采用当前编号的哈希函数将各个新k边子图映射到对应编号的数组的存储桶中,当所述存储桶为非空桶且所述非空桶在当前时间窗口内尚未参与过持久值计数时,若新k边子图与所述非空桶对应的k边子图模式不同构,则采用下一编号的哈希函数将新k边子图映射到对应编号的数组的存储桶中。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:采用当前编号的哈希函数将各个新k边子图映射到对应编号的数组的存储桶中,当所述存储桶为空桶时,计算所述新k边子图的模式并将其插入到所述空桶中得到更新的辅助数据结构。6.根据权利要求1所述的方法,其特征在于,采用哈希函数将新k边子图映射到对应的
存储桶的步骤包括:利用图不变量将各个新k边子图编码为字符串表示,使得同构子图被映射到对应的存储桶;其中,利用图不变量将各个新k边子图编码为字符串表示,具体包括:分别将各个新k边子图e=(v
i
,v
j
,t(e))的每个顶点的度和标签连接在一起,作为对应顶点的新标签l(v);其中,v
i
,v
j
为新k边子图e中的顶点,t(e)为新k边子图e中对应顶点构成的边;根据所述顶点的新标签得到所述新k边子图中每条边的新标签l(e)=(l(v
i
),l(v
j
));根据所述社交网络快照图的各个边对应的单边模式出现的顺序为每条边指定权重w(e);其中,单边模式首次出现的越早,对应的权重越小;若w(e
i
)<...

【专利技术属性】
技术研发人员:张千桢黄楚郭得科罗来龙任棒棒
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1