一种面向属性图集的频繁近似子图挖掘方法技术

技术编号:12022034 阅读:102 留言:0更新日期:2015-09-09 19:02
本发明专利技术属于图挖掘技术领域,具体涉及一种面向属性图集的频繁近似子图挖掘方法。本发明专利技术包括:输入属性图集D;构造属性图集S;挖掘频繁近似顶点;子图扩展;计算扩展子图P’在属性图集D中的支持度;输出频繁近似子图集F。本发明专利技术提出一种面向属性图集的频繁近似子图挖掘方法,首先利用聚类算法将属性图集中连续数值型特征向量分割成离散特征向量,从而构建一个新的属性图集S,方便子图的搜索;然后在图近似匹配过程中采用具有较强容错能力的图编辑距离,符合现实世界中噪声和图失真普遍存在的现象,可以发现更多重要模式,具有更实际的应用前景。

【技术实现步骤摘要】

本专利技术属于图挖掘
,具体涉及一种面向属性图集的频繁近似子图挖掘方 法。
技术介绍
频繁子图挖掘作为图挖掘中的重要任务,可以发现图中隐含的重要模式,而且挖 掘出来的模式可以用于进一步的研宄,例如分类、聚类和关联模式挖掘等。图匹配是频繁子 图挖掘中的关键步骤,目前存在两类图匹配方法:精确匹配和近似匹配。图精确匹配要求两 个图的结构和特征完全相同,虽然图精确匹配在数学上提供了严谨的方法,但是它只适用 于有限的问题中。由于现实世界中的对象常被噪声影响,且图建立过程中存在失真现象,例 如,属性值出现误差或者顶点和边的缺失等,所以图近似匹配在现实中的应用更为广泛。 依据图近似匹配策略,近似子图挖掘方法主要分为五类:(1)基于图编辑距离:算 法SUBDUE、RNGV和MaxAFG探讨一个图潜在的编辑路径,并把最有可能的编辑路径作为候 选项;(2)基于-边的子同构:算法Monkey中允许边的缺失和边标号的替换,其中是边差异 阈值;(3)基于顶点或者边不相交的子同胚:算法CSMiner发现具有相同拓扑的近似结构; (4)基于不确定图上的子同构:算法MUSE计算每个候选项的期望支持度,根据期望支持度 寻找近似结构;(5)基于替换概率:算法gAppr〇X、APGM和VEAM依据顶点或者边的替换矩阵 寻找近似结构。在众多图近似匹配方法中,噪音和图失真现象的存在使得具有较强容错能 力的图编辑距离倍受青睐。在基于图编辑距离的图近似匹配中,编辑操作的代价函数决定 着图结构的匹配过程。算法SUBDUE、RNGV和MaxAFG中的代价函数均不能很好地用于属性 图上,且算法SUBDUE和MaxAFG是在单个大图上挖掘频繁近似子图,大图上的频繁子图挖掘 和图集上的频繁子图挖掘存在本质不同:首先,支持度的定义不同;其次,子图搜索过程不 同。针对以上不足,本专利技术提出。
技术实现思路
本专利技术的目的是提出一种利用具有较强容错能力的图编辑距离进行图近似匹配, 符合现实世界中噪声和图失真普遍存在的现象,从而可以发现更多有意义的重要模式的面 向属性图集的频繁近似子图挖掘方法。 本专利技术的目的是这样实现的: (1)输入属性图集D、支持度阈值〇、近似度阈值t和代价函数d; (2)构造属性图集S:对属性图集D中顶点特征向量集和边特征向量集分别进行聚 类,根据簇心特征向量构造一个新的图集S;之后在属性图集D和S上进行频繁近似子图搜 索; (3)挖掘频繁近似顶点:根据属性图集D和S、两个阈值〇和t、代价函数d,挖掘 只包含一个顶点的频繁近似子图,将频繁近似顶点的三个相关信息加入到集合C,令频繁 近似子图集F=C; (4)子图扩展:对于每个子图PGC,找到子图P在属性图集S中的扩展边集 ExtSet(P,S),对于每条扩展边esGExtSet(P,S),将子图P和边es连接得到扩展子图P' =P°es;同时计算扩展子图P'的三个相关信息:子图P'的最小DFS编码Min(P')、子图P' 在图集S中的同构嵌入集0(P',S)和子图P'在图集D中的近似嵌入集0(P',D); (5)计算扩展子图P'在属性图集D中的支持度,若supp(P',D)彡〇,则有F=FUP',并重复步骤(4),直至所有子图均被发现或者子图的支持度小于支持度阈值〇 ; (6)输出频繁近似子图集F; 所述代价函数d,设〈Qi,Qj>是图编辑路径中的中一个编辑操作,其中以是Qi的第 k个特征值,qk是Qj的第k个特征值,d(<Qi,Qj>)表示编辑操作〈Qi,Qj>的代价函数,则有: 近似嵌入集,给定图P,图G,图gi,其中图gi是图G的一个子图,若图P和图§1是 近似图,则称图gi是图P在图G中的一个近似嵌入;用o(P,G)表示图P在图G中的近 似嵌入集,则有〇(P,G) = {gi|gi是图G的子图,图P和图§1是t-近似图};用〇(P,D)表 示图P在图集D中的所有近似嵌入,则有0(P,D)=U^dO(P,G)。 所述的t-近似图,给定两个图GpGj和近似度阈值t,如果G种G」的图编辑距 尚不大于1_T,即dism%,Gj) < 1_t,则称图Gi和图G』是t-近似图。 在所述的属性图集D和S上进行频繁近似子图搜索,以属性图集S中的图为基准 进行子图搜索,同时根据属性图集D、两个阈值〇和t、代价函数d来判断子图是否为频繁 近似子图,图GsgS,存在子图gsGGs,若在属性图集D中存在包含子图gD的图GD,使得gD 和T-相似图,且图GD的个数不小于fX|D|,即supp(gs,D)彡〇,则称子图频繁近 似子图;接着在图集S中查找子图gs的所有扩展边,根据每条扩展边对子图gs进行扩展得 到新的扩展子图,并判断扩展子图是否为频繁近似子图;按照上述过程遍历属性图集S中 的所有子图,同时根据属性图集D、两个阈值〇和t、代价函数d找出所有频繁近似子图。 本专利技术的有益效果在于: 本专利技术提出,首先利用聚类算法将属 性图集中连续数值型特征向量分割成离散特征向量,从而构建一个新的属性图集S,方便子 图的搜索;然后在图近似匹配过程中采用具有较强容错能力的图编辑距离,符合现实世界 中噪声和图失真普遍存在的现象,可以发现更多重要模式,具有更实际的应用前景。【附图说明】 图1是本专利技术提出的面向属性图集的频繁近似子图挖掘方法流程图; 图2是本专利技术中构造属性图集S的流程图; 图3是本专利技术中属性图集D和S中各一实例图; 图4是本专利技术中频繁近似子图挖掘流程图; 图5是本专利技术的结果索引树。【具体实施方式】 下面结合附图对本专利技术做进一步描述。 本专利技术的相关内容: (1)属性图D:属性图G= {V,E,Fv,FE},其中V是顶点集,E是边集,Fv是顶点特征 向量集,FE是边特征向量集。 在属性图D中,每个顶点有n个连续数值型属性,组成顶点的n维特征向量,图G 中所有顶点的特征向量组成图G的顶点特征向量集,即巧是由所有顶点的n维特征向量组 成的集合。同理每条边有m个连续数值型属性,组成边的m维特征向量,FE是图G中所有边 的m维特征向量组成的集合。 (2)构造属性图集S:首先对图集D中所有顶点的特征向量集和所有边的特征向量 集分别进行聚类,然后将图集D中每个图的每个顶点的特征向量和每条边的特征向量分别 用它们所在簇的簇心特征向量代替,从而得到图集S。所以图集S和图集D只有对应顶点和 边上的特征向量不同,其他完全相同。 (3)编辑操作的代价函数:图的编辑操作通常包括顶点的插入、删除、替换和边的 插入、删除、替换,代价函数定义了这六个操作相关的代价。设〈Qi,Q,是图编辑路径中的一 个编辑操作,&是1的第k个特征值,qk是L的第k个特征值,^〈QdQ,)表示编辑操作 〈Qi,Qj>的代价函数: 第一个实例和第二个实例分别表示顶点或者边的删除或者插入的代价。如果第一 个实例表示插入的代价,则第二个实例表示删除Q 代价;如果第一个实例表示删除 的代价,则第二个实例表示插入Qi的代价。最后一个实例是替换操作的代价。 (4)图编辑距离:给定两个属性图匕和6』,若h为从图GjljGj的一条编辑路径, cost(h)表示编辑路径h的代价,如果{hi,…,hj表示从匕到h的编本文档来自技高网
...

【技术保护点】
一种面向属性图集的频繁近似子图挖掘方法,其特征在于,包括如下步骤:(1)输入属性图集D、支持度阈值σ、近似度阈值τ和代价函数d;(2)构造属性图集S:对属性图集D中顶点特征向量集和边特征向量集分别进行聚类,根据簇心特征向量构造一个新的图集S;之后在属性图集D和S上进行频繁近似子图搜索;(3)挖掘频繁近似顶点:根据属性图集D和S、两个阈值σ和τ、代价函数d,挖掘只包含一个顶点的频繁近似子图,将频繁近似顶点的三个相关信息加入到集合C,令频繁近似子图集F=C;(4)子图扩展:对于每个子图P∈C,找到子图P在属性图集S中的扩展边集ExtSet(P,S),对于每条扩展边eS∈ExtSet(P,S),将子图P和边eS连接得到扩展子图P’=PοeS;同时计算扩展子图P’的三个相关信息:子图P’的最小DFS编码Min(P’)、子图P’在图集S中的同构嵌入集Θ(P’,S)和子图P’在图集D中的近似嵌入集Ο(P’,D);(5)计算扩展子图P’在属性图集D中的支持度,若supp(P’,D)≥σ,则有F=F∪P’,并重复步骤(4),直至所有子图均被发现或者子图的支持度小于支持度阈值σ;(6)输出频繁近似子图集F。...

【技术特征摘要】

【专利技术属性】
技术研发人员:潘海为高琳琳韩启龙战宇翟霄李文博
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1