单个图的频繁子图挖掘方法及装置制造方法及图纸

技术编号:33506547 阅读:23 留言:0更新日期:2022-05-19 01:16
本发明专利技术提供了一种单个图的频繁子图挖掘方法及装置,其中,该方法包括:根据单个图的节点标签的字典排序结果生成规范邻接矩阵,并为各图节点顺序编号;通过规范邻接矩阵生成初始次优规范邻接矩阵树,叶子节点包括第一数量的边,其CSP搜索空间为其所包含节点标签对应的图节点的编号的字典排序顺序组合;依据规范邻接矩阵对叶子节点做FFSM

【技术实现步骤摘要】
单个图的频繁子图挖掘方法及装置


[0001]本专利技术涉及数据挖掘
,尤其涉及单个图的频繁子图挖掘方法及装置。

技术介绍

[0002]随着大数据技术的快速发展,用图结构刻画数据逐渐应用在海量数据中。传统的大数据分析技术通常以SQL或者类SQL的表格型分析工具为基础具有相对通用的分析引擎,而海量图数据因其关系存储的复杂性和特殊性,常需专用的计算分析引擎才能实现。
[0003]图是结构的高度抽象。频繁子图挖掘是图挖掘关键技术之一,其在社交网络、情报挖掘、生物工程、通信网络优化、文本挖掘以及知识推理等多个领域具有广泛应用,如蛋白质结构分析、链接预测、敏感群体识别、图像分类等。同时,频繁子图挖掘的结果还可以作为数据分类、聚类、检索、匹配以及相似性分析的基础。
[0004]传统的频繁子图挖掘算法的复杂度较高,且大多属于单机串行算法,主要分为Apriori(关联分析)和FFSM(Fast Frequent Subgraph Mining,快速频繁子图挖掘)两大类,分别以AGM(Apriori

based Graph本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种单个图的频繁子图挖掘方法,其特征在于,包括:根据单个图的节点标签的字典排序结果生成所述单个图的规范邻接矩阵,并为所述单个图的规范邻接矩阵中的各图节点按行或列的顺序进行编号;通过按图节点的编号顺序搜索所述单个图的规范邻接矩阵生成初始的次优规范邻接矩阵树,其中,该初始的次优规范邻接矩阵树的每个叶子的节点包括第一数量的边;所述第一数量为不小于一的整数;该初始的次优规范邻接矩阵树的根节点不包含所述单个图的图节点和边,所述根节点的孩子节点为频繁节点,所述频繁节点的孩子节点为频繁边;叶子的节点的CSP搜索空间为其所包含节点标签对应的图节点的编号的字典排序顺序组合;在包含第一数量的边的叶子的第一节点为规范邻接矩阵且存在与其共有父节点的其他包含第一数量的边的叶子的第二节点的情况下,依据所述单个图的规范邻接矩阵对所述第一节点和所述第二节点做FFSM

Join运算,子图增长得到以所述第一节点和所述第二节点为父节点且包含第二数量的边的孩子节点;在包含第一数量的边的叶子的第三节点为规范邻接矩阵且为外矩阵的情况下,依据所述单个图的规范邻接矩阵对所述第三节点做FFSM

Extension运算,子图增长得到以所述第三节点为父节点且包含第二数量的边的孩子节点;其中,所述第二数量减去所述第一数量等于一;所述第三节点与所述第一节点或所述第二节点相同或不同;包含第二数量的边的孩子节点成为次优规范邻接矩阵树的叶子的节点;以包含第二数量的边的叶子的节点作为候选子图,依据子图增长方式并根据候选子图的父节点和该父节点的CSP搜索空间构建相应候选子图的CSP搜索空间;在当前候选子图的CSP搜索空间中图节点的编号的字典排序顺序组合的有效个数小于设定支持度阈值的情况下,将相应的候选子图标记为无效子图;在根据所述单个图的规范邻接矩阵判断当前候选子图不是完成增长的子图的情况下,依据所述单个图的规范邻接矩阵并根据未被标记为无效子图的包含第二数量的边的节点进行子图增长,以更新次优规范邻接矩阵树的叶子节点,并根据完成子图增长的叶子节点输出所述单个图的频繁子图。2.如权利要求1所述的单个图的频繁子图挖掘方法,其特征在于,通过按图节点的编号顺序搜索所述单个图的规范邻接矩阵生成初始的次优规范邻接矩阵树,包括:通过按图节点的编号顺序搜索所述单个图的规范邻接矩阵初始化次优规范邻接矩阵树,得到初始的次优规范邻接矩阵树;其中,初始的次优规范邻接矩阵树的根节点为空值;所述第一数量等于一;所述频繁节点的CSP搜索空间为相应边的起始图节点的节点标签的编号和终点图节点标签的编号的字典排序顺序组合。3.如权利要求1所述的单个图的频繁子图挖掘方法,其特征在于,所述方法,还包括:在包括第一数量的边的叶子的节点对应的次优邻接矩阵中图节点的编号不符合字典排序顺序的情况下,将相应的包括第一数量的边的叶子的节点标记为无效子图;在包含第一数量的边的叶子的第三节点为规范邻接矩阵且为外矩阵的情况下,依据所述单个图的规范邻接矩阵对所述第三节点做FFSM

Extension运算,子图增长得到以所述第三节点为父节点且包含第二数量的边的孩子节点,包括:在包含第一数量的边的叶子的第三节点为规范邻接矩阵、为外矩阵且未被标记为无效
子图的情况下,依据所述单个图的规范邻接矩阵对所述第三节点做FFSM

Extension运算,子图增长得到以所述第三节点为父节点且包含第二数量的边的孩子节点。4.如权利要求1所述的单个图的频繁子图挖掘方法,其特征在于,在包含第一数量的边的叶子的第一节点为规范邻接矩阵且存在与其共有父节点的其他包含第一数量的边的叶子的第二节点的情况下,依据所述单个图的规范邻接矩阵对所述第一节点和所述第二节点做FFSM

Join运算,子图增长得到以所述第一节点和所述第二节点为父节点且包含第二数量的边的孩子节点,包括:在包含第一数量的边的叶子的第一节点为规范邻接矩阵且存在与其共有父节点的其他包含第一数量的边的叶子的第二节点的情况下,若所述第一节点和所述第二节点均为内矩阵,当且仅当f和k不同时,以第一方式进行子图增长,得到以所述第一节点和所述第二节点为父节点且包含第二数量的边的孩子节点对应的邻接矩阵表示为C
m
×
m
,其中,邻接矩阵C
m
×
m
中的元素表示为:其中,c
i,j
表示孩子节点对应的邻接矩阵中的第i行第j列的元素,a
i,j
表示第一节点对应的规范邻接矩阵的第i行第j列的元素,b
i,j
表示第二节点对应的邻接矩阵的第i行第j列的元素,第一节点对应的规范邻接矩阵中的最后一条边表示为a
m,f
,m和f分别表示第一节点对应的规范邻接矩阵的行和列的数目与边总数,第二节点对应的邻接矩阵中的最后一条边表示为b
n,k
,n和k分别表示第二节点对应的邻接矩阵的行和列的数目与边总数;若所述第一节点为内矩阵且所述第二节点为外矩阵,则以第二方式进行子图增长,得到以所述第一节点和所述第二节点为父节点且包含第二数量的边的孩子节点对应的邻接矩阵表示为C
n
×
n
,其中,邻接矩阵C
n
×
n
中的元素表示为:若所述第一节点和所述第二节点均为外矩阵,当且仅当f≠k∧a
m,m
=b
m,m
时,以第三方式进行子图增长,得到以所述第一节点和所述第二节点为父节点且包含第二数量的边的孩子节点对应的邻接矩阵表示为C
m
×
m
,其中,邻接矩阵C
m
×
m
中的元素表示为:若所述第一节点和所述第二节点均为外矩阵,则以第四方式进行子图增长,得到以所述第一节点和所述第二节点为父节点且包含第二数量的边的孩子节点对应的邻接矩阵表示为D
(m+1)
×
(m+1)
,其中,邻接矩阵D
(m+1)
×
(m+1)
中的元素表示为:其中,d
i,j
表示孩子节点对应的邻接矩阵中的第i行第j列的元素,a
i,j
表示第一节点对
应的规范邻接矩阵的第i行第j列的元素,b
m,j
表示第二节点对应的邻接矩阵的第m行第j列的元素,b
m,m
表示第二节点对应的邻接矩阵的第m行第m列的元素,m表示第一节点对应的规范邻接矩阵和第二节点对应的邻接矩阵的行数和列数。5.如权利要求4所述的单个图的频繁子图挖掘方法,其特征在于,以包含第二数量的边的叶子的节点作为候选子图,依据子图增长方式并根据候选子图的父节点和该父节点的CSP搜索空间构建相应候选子图的CSP搜索空间,包括:按所述第一方式或所述第三方式子图增长得到包含第二数量的边的叶子的节点作为候选子图的情况下,对所述第一节点的CSP搜索空间和所述第二节点的CSP搜索空间中图节点的编号的字典排序顺序组合对应的子图去重,得到候选子图的CSP搜索空间;按所述第二方式或第四方式子图增长得到包含第二数量的边的叶子的节点作为候选子图的情况下,对所述第一节点对应的规范邻接矩阵和所述第二节点对...

【专利技术属性】
技术研发人员:田群戴永恒李荣华李艳斌潘敏佳刘学谦
申请(专利权)人:电科云北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1