一种异构网络中基于元路径的异常模体查询方法技术

技术编号:21456257 阅读:26 留言:0更新日期:2019-06-26 05:32
本发明专利技术提供了一种异构网络中基于元路径的异常模体查询方法,属于网络异常查询领域。本方法针对包含多种类信息的数据提取网络,通过设定查询所需要的起始条件,找出所有满足条件的模体的集合,使用正规化的路径相似度,比较每个模体与参考模体集合之间的相似度,对其中相似度低的模体,我们认为它们是目标模体中的异常模体部分。实验结果表明,本发明专利技术提出的方法能够应用于多种异构网络上,并取得不错的效果,由于异构网络中的异常模体查询方法较少,本发明专利技术能够作为一种异构网络中的异常模体查询方法稳定使用,从而为异常模体查询提供了一种新的视角。

【技术实现步骤摘要】
一种异构网络中基于元路径的异常模体查询方法
本专利技术属于网络异常查询领域,主要应用于在异构网络中查询目标模体集合中包含的异常的小型模体。主要通过计算模体间特定类型的元路径数目作为相似度并使用模体到自身的元路径数目进行正规化,得到目标模体在网络中和预期模体之间的相似性,经过分析确定其中最不相似的部分模体,进而判断在给定网络中的异常模体。
技术介绍
随着大数据时代的到来以及科学技术的发展导致的计算机性能大幅度提高,许多需要耗费大量人力物力进行分析的数据,以及很多难以简单通过数据角度分析的数据,现在都可以借助计算机进行高效且准确的分析,这使得我们可以从繁杂的体力劳动之中解放出来,更加专注于从理论上挖掘网络中隐藏的关系。同时,网络中的异常也是我们在研究过程中经常会接触到的部分,如何定义网络中的异常,如何根据定义查询这些异常无疑是网络研究中重要的部分之一。在现有的异常查询方法中,大多数是通过数值分析,聚类分析等方法查询网络中的异常点,对于网络中的异常模体则缺乏有效的查询手段,因此我们希望提出一种方法能够准确地查询到网络中的异常模体,方便研究网络中某些异常模体对网络产生的影响。
技术实现思路
本专利技术的目的是针对现有研究中存在的缺少查询网络中异常模体的有效手段的问题,基于元路径的概念,结合使用元路径查询网络中异常节点方法的思路,通过计算目标模体与用户规定的某类型标准模体之间存在的元路径数目来衡量目标模体与标准模体之间的相似度,同时使用模体到自身的元路径数目为标准对相似度进行正规化,将结果作为衡量相对相似度的依据。借助元路径的概念,在结构上对网络中的模体之间的相似性进行了衡量及比较,得到了一种用于衡量目标模体和用户给出的标准模体集合之间是否相似的指标,实验表明该方法能够较好的刻画网络中模体的异常程度。本专利技术的技术方案:一种异构网络中基于元路径的异常模体查询方法,步骤如下:步骤1)对数据集进行处理并确定查询条件根据数据集中包含的数据类型不同可以分为以下步骤:1.1)根据所关注的不同节点类型构成的模体类型,从数据集中提取网络。模体指在网络中高频出现的小型网络结构,在研究中通常指包含三个以上八个以下节点的高频网络子结构。1.2)确定节点查询条件。本专利方法针对异构网络进行模体查询,因此根据异构网络的不同节点类型,也会产生不同类型的边。元路径被定义为连接两类对象的一条路径,形式化的定义可以写为:其中Ai表示节点类型,Ri表示关系类型。比如在合著网络中,作者-论文-作者的元路径表示两个作者之间有合著关系。对于不同的网络,不同类别的元路径有着不同的意义,不同类型的模体在研究中也有着不同的价值。通过确定查询的起始模体,用于查询目标模体的元路径以及所要查询的模体的节点类型以及拓扑结构,可以得到一个满足要求的目标模体集合。尽管也可以通过几个无关节点进行这种查询,但是这种查询得到的结果往往意义不大,甚至没有意义。同时也需要确定查询作为参照的标准模体集合的起始模体,查询所用元路径以及查询模体的类型,用于计算候选模体集合和标准模体集合之间的元路径数目。步骤2)根据步骤1)中给出的查询条件确定候选模体集合和作为参照的标准模体集合(由用户确定,以下称参考模体集合),分为如下两个步骤:2.1)计算候选模体集合。对于每种类型的起始点,我们可以定义多种元路径进行查询,元路径的起始节点类型应当是起始模体中所包含的任一节点类型,元路径的结束节点类型应当是目标模体包含的节点类型中的一种。由起始模体出发,使用定义的元路径,根据起始模体的节点类型采用对应的元路径进行查询,元路径查询得到的结果是一个满足要求的点集。根据点集中节点类型的不同,我们从该类型节点在目标模体中所在的不同位置为起点,进行符合条件的模体的搜索。对于查询到的模体,如果该模体存在同构模体,由于同一个节点在模体中的位置不同,会使得同一个模体被计算多次,因此需要将重复的模体从结果中去除。最终将产生的所有符合条件的模体存储在一个集合中。2.2)计算参考模体集合。在步骤1)中,在给出候选模体查询条件的同时也会给出参考模体的查询条件,参照2.1的查询步骤,我们通过查询可以得到参考模体集合。需要注意的是,在算法中此步也可以省略,省略此步后的结果中参考模体集合即为候选模体集合,此时算法的查询结果即为与所有候选模体相比最“不合群”的部分模体。步骤3)根据步骤2)中得到的候选模体集合和参考模体集合,计算候选模体集合中的每个模体和全体参考模体之间的相似度。3.1)计算每个模体到参考模体集合的相似度。这里借助对称元路径的概念,如果两个同类型节点通过某条相同的元路径查询到了一个相同节点,那么我们就称这条组合路径为对称路径。在查询中我们可以给出对称路径的一半,令两个起始节点均通过该元路径进行双向查询,则查询的元路径数目为:其中m代表模体,Psym表示对称元路径,P表示组成对称元路径的一半路径,Num()函数表示路径的数目,Vab表示模体ma和模体mb中的点经由某条元路径能够走到的节点的集合,我们以该值作为两点之间的相似度,同时有多条查询元路径的情况下,可以定义每种路径的不同权重,从而得到加权的相似度值。权值默认为1。3.2)计算每个模体经由对称元路径返回自身的路径数目,用于对相似度进行正规化。这一步中仍需要考虑同类节点和同构因素对计算结果的影响,结果中我们统计每个节点返回自身和同模体中同类型节点的元路径数目作为对相似度进行正规化的标准,即:我们通过该公式计算候选集和参考集中每个模体到自身的路径数目,即为与自身的相似度。同样的,当存在多种元路径的情况下,如果在3.1)中定义了权值,那么在该步中也要使用相同的权值进行计算。3.3)使用模体与自身的相似度作为衡量标准对相似度进行标准化运算。对于不同模体,由于它们在网络中所处位置不同,因此其拓扑结构也存在差异,单纯用相似度进行比较无法准确的衡量两个模体与候选集之间的相似度的大小关系。比如,在相似度一样的情况下,如果一个模体中有更多的对称元路径连向参考模体集合之外的模体,那么显然它的相似度应当比全部对称元路径都连向参考集内部的模体小,但是单纯用相似度无法直接表示这种特征。因此我们采用正规化的相似度解决这一问题。根据不同相似度的定义和计算方法,可以采取不同的正规化相似度计算方法,这里使用路径相似度(PathSim)进行计算,其他可选的相似度还包括余弦相似度等。定义模体之间的归一化路径相似度为:其中PathSim表示路径相似度。由模体间相似度的定义,可以得到某个模体和参考模体集合之间的相似度定义:其中mj代表标准模体集合中的任一模体,SR表示参考模体集合,Ω为总的路径相似度。通过正规化操作,可以用一个比较统一的标准比较两个相似度相同的模体与参考集之间的相似程度,从而得到一个合理的结果。步骤4)对已经计算好正规化相似度的各个模体,根据正规划相似度进行排序,得到一个从小到大的相似度列表结果集合,用于表示和参考模体集合的相似程度,该值越小,表示对应模体越相异于参考模体集合,反之表示对应模体与参考模体集合越相似。本专利技术的有益效果:本专利技术可以使用包含多种数据信息的数据集,从中提取出我们所关注的异构网络,根据我们所关注的模体类型不同,通过用户给出的不同查询条件,结合元路径查询的方式查询满足本文档来自技高网...

【技术保护点】
1.一种异构网络中基于元路径的异常模体查询方法,其特征在于,步骤如下:步骤1)对数据集进行处理并确定查询条件1.1)根据所关注的不同节点类型构成的模体类型,从数据集中提取网络;1.2)确定节点查询条件;根据异构网络的不同节点类型,会产生不同类型的边;元路径被定义为连接两类对象的一条路径,形式化的定义写为:

【技术特征摘要】
1.一种异构网络中基于元路径的异常模体查询方法,其特征在于,步骤如下:步骤1)对数据集进行处理并确定查询条件1.1)根据所关注的不同节点类型构成的模体类型,从数据集中提取网络;1.2)确定节点查询条件;根据异构网络的不同节点类型,会产生不同类型的边;元路径被定义为连接两类对象的一条路径,形式化的定义写为:其中Ai表示节点类型,Ri表示关系类型;步骤2)根据步骤1.2)中给出的节点查询条件确定候选模体集合和参考模体集合,分为如下两个步骤:2.1)计算候选模体集合;对于每种类型的起始点,定义多种元路径进行查询,元路径的起始节点类型应当是起始模体中所包含的任一节点类型,元路径的结束节点类型应当是目标模体包含的节点类型中的一种;由起始模体出发,使用定义的元路径,根据起始模体的节点类型采用对应的元路径进行查询,元路径查询得到的结果是一个满足要求的点集;根据点集中节点类型的不同,从该类型节点在目标模体中所在的不同位置为起点,进行符合条件的模体的查询;对于查询到的模体,当该模体存在同构模体时,由于同一个节点在模体中的位置不同,会使得同一个模体被计算多次,因此需要将重复的模体从结果中去除;最终将产生的所有符合条件的模体存储在一个集合中,即为候选模体集合;2.2)计算参考模体集合;在步骤1.2)中,在给出候选模体查询条件的同时也会给出参考模体的查询条件,其中,当存在参考模体集合的查询条件时:由初始查询条件按照2.1)的查询步骤,得到候选模体集合和参考模体集合;当不存在参考模体集合的查询条件时:由初始查询条件按照2.1)的查询步骤,得到候选模体集合,并令参考模体集合等于候选模体集合,得到参考模体集合;步骤3)根据步骤2)中得到的候选模体集合和参考模体集合,计算候选模体集合中的每个模体和全体参考模体之间的相似度;3.1)计算每个模体到参考模体集合的相似度;借助对称元路径的概念,当两...

【专利技术属性】
技术研发人员:万良田孙宇宸于硕夏锋
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1