当前位置: 首页 > 专利查询>吕琳媛专利>正文

网络中节点重要性的排序方法技术

技术编号:3935011 阅读:876 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种网络中节点重要性的排序方法,在有向网络中,加入一个背景节点,并且背景节点与有向网络中的每个节点都建立双向的链接;初始时刻给每个节点一单位的资源,然后在这个含有背景节点的有向网络中随机游走,进行资源分配,直到达到稳态;将稳态时背景节点的资源分配到其他节点中;稳态时,每个节点上的资源数加上从背景节点获得的资源数之和为该节点重要性的分数;按照重要性分数从高到低的顺序将节点排序,排在最前面的表示该节点越重要,或者说他的影响力越大。本发明专利技术在PageRank的基础上引入背景节点,使得原来依赖于参数的排序方法变成了不依赖参数的方法,而且该方法在解决了节点排序中悬摆链问题的同时,还可以处理含有多个独立集团的网络排序问题。

【技术实现步骤摘要】

本专利技术属于网络中节点分析
,更为具体地讲,涉及网络中节点,如网页重 要性的排序方法。
技术介绍
网络中节点重要性的排序是一个非常重要的问题,例如对网页的排序是搜索算法 的核心。现有技术中最著名的节点重要性排序方法是2001年9月4日公布的、Lawrence Page专利技术的美国US 6285999B1号专利,S卩“链接数据库中节点排序方法”(METHOD FOR NODE RANKING IN A LINKED DATABASE),简称PageRank算法。它是Google搜索引擎排名运算法 则的一部分,用来标识网页的等级/重要性。Google搜索引擎通过PageRank算法来调整结 果,使那些更具“等级/重要性”的网页在搜索结果中网站排名获得提升,从而提高搜索结 果的相关性和质量。PageRank算法存在的主要数学缺陷是无法处理悬摆链,也就是指出度为零的网页 (没有链出边的网页)。目前有两种方法1、将这些出度为零的网页剔除掉,先计算剩下网页的排序分,然后再计算剔除网 页的分数。2、引入一个随机跳转概率,即走到悬摆链的时候会以一定概率随机选择网页链 入,这样会使得网页排序结果严重依赖随机跳转概率参数的选择,也就是说不同的随机跳 转概率参数会得到不同的排序结果。目前经验的随机跳转概率是0. 15,但是没有理论能够 证明为什么选择这个值,同时随着系统的演化发展,最优取值很可能发生变化。另一个著名的节点重要性排序方法是HITS算法。该算法同时考虑了节点权威性 (authority)和中枢性(hub)。一个节点的权威值等于链入它的节点的hub值的和,一个节 点的hub值等于它指向的节点的权威值之和。由此可见HITS的权威值和中枢值的计算都 是依赖于节点相互关系的。因此HITS算法也有一个问题就是很难处理包含多个集团的网 络。因为各个集团之间没有链接,很难说明集团A比集团B更重要,因此也就不能确定集团 A中的节点比集团B中的节点更加权威或者中枢性更强。
技术实现思路
本专利技术的目的在于克服现有技术的不足和局限性,提出一种网络中节点重要性的 排序方法,以解决无法处理悬摆链和包含多个集团的网络的技术问题。为实现上述专利技术目的,本专利技术,其特征在于,包括以 下步骤(1)、将需要排序的具有链接关系的文件转换成有向网络,其中有向网络中的节点 为需要排序的具有链接关系的文件,边为节点间的链接关系;(2)、加入背景节点,并且背景节点与有向网络中的每个节点都建立双向的链接;(3)、初始时刻给每个节点一单位的资源,然后在这个含有背景节点的有向网络中 随机游走,进行资源分配,直到达到稳态;(4)、将稳态时背景节点的资源分配到其他节点中,稳态时,每个节点上的资源数 加上从背景节点获得的资源数之和为该节点重要性分数;(5)、按照重要性分数从高到低的顺序将节点排序,排在越前面的表示该节点越重 要,或者说他的影响力越大。本专利技术的目的是这样实现的加入一个背景节点,并且背景节点与有向网络中的每个节点都建立双向的链接; 初始时刻给每个节点一单位的资源,然后在这个含有背景节点的有向网络中随机游走,进 行资源分配,直到达到稳态;将稳态时背景节点的资源分配到其他节点中;稳态时,每个节 点上的资源数加上从背景节点获得的资源数之和为该节点重要性的分数;按照重要性分数 从高到低的顺序将节点排序,排在最前面的表示该节点越重要,或者说他的影响力越大。本 专利技术在PageRank的基础上引入背景节点,原来出度为0的节点就有了出度,使得原来依赖 于参数的排序方法变成了不依赖参数的方法,从而解决了节点排序中悬摆链的问题;同时, 加入背景节点后,原来不连通的两个集团就可以通过背景节点连接起来,使得本专利技术的排 序方法可以处理含有多个独立集团的网络排序问题。附图说明图1是本专利技术的一种具体实施方式流程图;图2是本专利技术中背景节点与有向网络中每个节点都建立双向链接后的网络拓扑 结构图;图3是本专利技术一实例中有向网络的拓扑结构示意图;图4是本专利技术一实例中加入背景节点的有向网络拓扑结构示意图。具体实施例方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地 理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许 会淡化本专利技术的主要内容时,这些描述在这里将被忽略。实施例图1是本专利技术的一种具体实施方式流程图。在本实施例中,如图1所示,在具体实施过程中,首先,将需要排序的具有链接关 系的文件转换成有向网络G,其中有向网络G中的节点为需要排序的具有链接关系的文件, 如网页等,边为节点间的链接关系。例如网页排序时,网页为有向网络G的节点,如果网页 A链入(指向)网页B,那么在网页A和B之间会形成一条由A指向B的有向边。由此方法 得到一个可以描述由多个需要排序的具有链接关系的文件而构成的有向网络G。该网络G 可以包含悬摆链(没有出度的节点),也可以由多个集团组成。这些都不会影响本算法的使 用。然后,在得到有向网络G的基础上添加一个新节点,我们称之为背景节点。背景节 点与有向网络G中的其他节点之间添加双向的链接。如果有向网络G有N个节点M条边,那么添加背景节点后的有向网络G’有N+1个节点M+N条边。如图2所示,有向网络有9个 节点11条边,添加背景节点后的有向网络G’有10个节点20条边。初始时刻在原有的N个节点上各放一单位的资源。每一时间步节点上的资源都会 均勻地分给该节点所指向的节点,这实际上等价于有向网络的随机游走过程。构建添加背 景节点后的有向网络G’的概率转移矩阵为P,其中的元素P(x,y)定义如下al、当存在由节点χ指向节点y的连边的时候,元素P(x,y) = 1/k(χ),其中k(χ) 为添加背景节点后的有向网络G’中节点χ的出度。如果有向网络G’是含权网络,那么Ρ(χ, y)=奴1,7)八00,其中《(1,7)为有向边x,y的权重;a2、当节点X和y之间没有连边的时候,P (x,y) = 0。设定初始资源■?(0),它是一个(N+1) Xl的向量,其中除了代表背景节点的最后一 个元素为0以外其它元素均为1。每一时间步节点上的资源按照概率转移矩阵P分给该节点所指向的节点,于是在 时间步t时刻,节点上面的资源分布情况 可由下式表示m = PTHt-I)其中T表示矩阵的转置。根据 (0 =进行迭代,如果没有达到稳态,则进行迭代,直至达到稳态。经过一定时间步数后达到稳态,设这个时候的分布为资源分布情况?(哟,整 个有向网络的总资源数守恒,就等于N,定义背景节点在稳态时的资源数为 W+1K),而 其他节点在稳态时的资源数为式㈣),其中1彡i彡N,于是节点i最终的重要性分数为 i ,= ,(oo) + w+1(oo)/iV,按照重要性分数Ri从大到小排列即可得到最终的节点排名。实例在本实例中,为解决一个网页排序的问题考察六个网页,分别标号pagel, page2, page3, page4, page5, page6,它们的链接关系如下pagelpage2 禾口 page5 ;page2 链接了 page3 ;page3pagel, page4 禾口 page5 ;page4page2 禾口 page6 ;page5 Ijlii T 本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:吕琳媛周涛张翼成
申请(专利权)人:吕琳媛周涛
类型:发明
国别省市:11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1