【技术实现步骤摘要】
一种图数据库中稠密子图挖掘技术框架的应用
[0001]本专利技术涉及图数据库领域,尤其涉及一种图数据库中稠密子图挖掘技术框架的应用。
技术介绍
[0002]随着计算机硬件的发展以及数据总量的增加,数据挖掘算法在许多领域都得到了应用,而在这些庞大且复杂的数据如网页超链接拓扑图中,有相当一部分可以以图的形式自然的呈现出来,这些图往往都展现出一种类似社群的基础结构,社群是一种稠密的,由连接紧密的节点构成的子图,D
‑
core作为有向图上社群的一种表现形式,在如在社群搜索,角色识别,垃圾邮件检测等领域中得到了广泛的应用。
[0003]D
‑
core是最近的网络研究中提出的一种稠密子图模型,尽管有许多现有的稠密子图模型如k
‑
core,k
‑
truss和k
‑
clique等,代表着稠密的子图,找到它,也就找到了联系紧密的社群,在子图中,每条边都至少在k个三角形中,而即为所有中最大的那一个子图,在子图中,每个顶点至少有k个邻居,而即为所有中 ...
【技术保护点】
【技术特征摘要】
1.一种图数据库中稠密子图挖掘技术框架的应用,其特征在于,包括以下步骤:S1:在网页超链接拓扑图分析中,在现有D
‑
core分解算法的基础上,利用D
‑
core的分层结构性质逐树,逐层构建一个D
‑
forest,又分为Top
‑
down方法和Bottom方法;S2:对于一个(k1,l1)
‑
core,它一定被包含在那些k值小于等k1,且l值小于等于l1的(k,l)
‑
core中,利用这一性质,我们对于每个k值,构造一棵k树,树中的每个节点都是一个网页的集合,其中包括一个或者多个网页,且拥有一个l值,集合中每个网页都至少引用了l个其他网页,集合中的网页是连通的,并且都属于一个(k,l)
‑
core,且不属于(k,l+1)
‑
core,对与相互包含的关系,树中利用父子结构来表示;S3:根据这样的定义,每个子树都是一个连接的(k,l)
‑
core,因为子树中的网页都至少有根节点l值个传出邻居,并且他们互相连接,而所有k树所组成的森林被称作D
‑
forest;S4:构造D
‑
forest的方法具体包括Top
‑
down和Bottom
‑
up;S5:在计算了所有网页所在的所有D
‑
core后,可以简化此信息得到如下数据:如节点A在(0,1)
‑
core,(1,0)
‑
core,(1,1)
‑
core,(1,2)
‑
core,(2,1)
‑
core中,可以根据D
‑
core的分层性质将其简化为(1,2)
‑
core,(2,1)
‑
core,本方法讲这些点称为skyline
‑
points,将skyline
‑
points放入xy平面,并连接起来可以得skyline的图像;S6:把这个图像的面积定义为skyline
‑
area;Skyline
‑
area是指此图像与x,y轴所围成的面积,可以看到,对于skyline
‑
area大的网页,它一定被包含在更多的core中,因此,本方法提出了一个基于skyline
‑
area的查询方法,利用此查询方法,所返回的子图中,每个节点的skyline
‑
area都大于给定的参数;S7:还包括计算skyline
‑
area的方法,对于每一个skyline
‑
point所对应的坐标(ki,li)首先计算ki乘li,由于skyline
‑
points的性质,k值大点l值一定小,否则他就被包含在另一个skyline
‑
point下了,所以重叠的面积自然就是ki乘li
‑
1,依据此方法,遍历完顶点的skyline
‑
points就可以计算出其skyline
‑
【专利技术属性】
技术研发人员:郑超,窦凤虎,王心同,张帆,
申请(专利权)人:中电积至海南信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。