一种基于数据场的Web节点排序方法技术

技术编号:15693680 阅读:202 留言:0更新日期:2017-06-24 08:37
本发明专利技术涉及基于数据场的Web节点排序方法。本发明专利技术的基于数据场的Web节点排序方法包括:映射步骤,将Web网络映射到二维空间中并且将Web网络中的每个目标页面节点作为具有一定质量的粒子;场势计算步骤,计算所述每个节点的场势大小;排序步骤,根据所述计算步骤得到的每个节点的场势进行排序。利用本发明专利技术的方法,能够将网络中的每个节点对其周边节点的影响力映射成数据场,通过计算所有节点的场势,获得社区内场势的变化规律,从而发现社区结构,由此能够准确定位Web页面的重要性以及节点间关系,能够便于发现并处理目标网页,对网络信息处理有较大的帮助。

A Web node sorting method based on data field

The invention relates to a Web node sorting method based on a data field. The invention of the Web node ranking method based on data field includes mapping steps, the Web network is mapped into a two-dimensional space and each page of the nodes in the Web network as with a certain quality of the particle; field potential calculation step, calculate the potential size of each node; sorting step, each node according to the field potential the calculation steps are sorted. By using the method of the invention, to each node in the network influence the mapping of the peripheral node into the data field, through field potential calculation of all nodes, the potential changes in the law community, so that community structure, which can accurately locate the Web page and the important relationship between nodes, can facilitate the discovery and treatment the target page, a great help for the network information processing.

【技术实现步骤摘要】
一种基于数据场的Web节点排序方法
本专利技术涉及网络信息处理方法,具体地涉及基于数据场的Web节点排序方法。
技术介绍
Web网络由于数据量巨大,数据无序,变化较快,现有技术中,社区发现方法虽然性能优越,但不适合Web网络的特征。而目前的网页排序方法多适用于在搜索引擎结果排序,不能准确定位节点及节点在其社区中的重要性,不利于发现目标网页并对其进行深入处理。目前的网页排序方法虽然能够对网页的重要性作出一种的评估,但不能准确定位Web页面在社区中的位置。而在一些应用场景下,需要准确定位网页在所在Web社区中的位置,以便进行进一步处理。如在对Web银行卡营销信息搜索处理过程中,需要分析网页在其所在Web网页簇中的地位及影响性,并以此为依据,对其进行分析,获得有效信息。而之前的网页排序方法难于适应于此类场景。
技术实现思路
鉴于上述问题,本专利技术旨在提供一种能够便于发现并处理目标网页、对挖掘有用信息提供可能的基于数据场的Web节点排序方法。本专利技术的基于数据场的Web节点排序方法,其特征在于,包括:映射步骤,将Web网络映射到二维空间中并且将Web网络中的每个目标页面节点作为具有一定质量的粒子;场势计算步骤,计算所述每个节点的场势大小;排序步骤,根据所述计算步骤得到的每个节点的场势进行排序。优选地,所述计算步骤包括下述子步骤:步骤(1),根据场势函数,计算所有节点处的场势并同时记录具有局部最高场势的节点;步骤(2),合并一定范围内局部最高场势节点并作为簇的代表节点;步骤(3),从所述代表节点出发,在该代表节点区域内可达范围内,按场势降低的方向进行节点的遍历并判断是否将节点加入到节点簇内;步骤(4),对每加入一个节点均需判断规定条件,若满足规定条件,则跳过当前节点;步骤(5),合并符合一定条件的已有的节点簇。优选地,在所述步骤(3)中包括下述步骤:①若与代表节点间的距离为1,则直接将该节点加入到社区中;②若与代表节点间的距离大于1,则计算式其节点簇的场势和,若符合条件,将该节点加入到社区中,并标记该节点,否则不加入该节点;③若节点p对多个簇内的代表节点均是领域内可达的,则分别计算多个簇在该节点处的场势,将节点p划归为在该处有较高场势的簇,并将节点p标记为边界节点。优选地,所述步骤(4)中的规定条件包括:①该节点的加入不会使社区内的节点连接数小于与非社区内节点的连接数;②从代表节点到当前节点的距离大于某临界值;③碰见边界节点;④若在遍历的过程中碰见已经标记的节点,则不做处理,跳过对该节点的处理。优选地,所述场势函数如下:假设给定Web网络G={V,E}。其中,V={v1,v2,...,vn}为节点的非空有限集,E为节点偶对或边的集合,任意节点v∈V的场势可表示为:dji代表节点j和节点i之间的距离,在Web网络图中,指连接两个网页间超链接的数目,本算法采用最短路径表示;mj表示节点的质量,本文中忽略节点本身属性的差异,统一赋值为1;参数σ是可预设的,指示节点场的影响范围;代表节点i所生成的场势,也就是其对其DFP领域内节点的影响力的和:其中dij代表节点i和节点j之间的距离。优选地,所述粒子是在其周边存在一个环球对称的虚拟数据场并且所述目标页面节点位于场的中间,场中的其他节点均受到所述目标节点生成的数据场的影响。优选地,在所述排序步骤中,通过将节点依照场势排序,从而获得的节点的重要程度以及在Web社区即页面节点的聚集中的定位。利用本专利技术的方法,能够将网络中的每个节点对其周边节点的影响力映射成数据场,通过计算所有节点的场势,获得社区内场势的变化规律,从而发现社区结构,由此能够准确定位Web页面的重要性以及节点间关系,能够便于发现并处理目标网页,对网络信息处理有较大的帮助。附图说明图1是表示本专利技术的基于数据场的Web节点排序方法的流程示意图。具体实施方式下面介绍的是本专利技术的多个实施例中的一些,旨在提供对本专利技术的基本了解。并不旨在确认本专利技术的关键或决定性的要素或限定所要保护的范围。下面,首先对本专利技术中已经提到以及将要提到的关键术语进行说明。在本专利技术中,所谓社区是指网络中的节点的聚集。在本专利技术中提到的“场”的概念是用于描述物质粒子间的非接触相互作用,随着场论思想的发展,人们将其抽象为一个数学概念,用来描述某个物理量或数据函数在空间内的分布规律。场势的特征在于,其对应于描述场的标量势函数。在本专利技术中,我们将网络G看作一个包含n个节点及其相互作用的系统,每个节点周围存在一个作用场,位于场中的任何节点都将收到其他节点的作用,每个节点的影响力会随网络距离的增加而衰减。假设给定Web网络G={V,E},其中,V={v1,v2,...,vn}为节点的非空有限集,E为节点偶对或边的集合,任意节点v∈V的场势可表示为:dji代表节点j和节点i之间的距离,在Web网络图中,指连接两个网页间超链接的数目,本算法采用最短路径表示;mj表示节点的质量,本文中忽略节点本身属性的差异,统一赋值为1;参数σ是可预设的,指示节点场的影响范围;代表节点i所生成的场势,也就是其对其DFP领域内节点的影响力的和:其中dij代表节点i和节点j之间的距离。本专利技术提出一种基于数据场的Web社区发现方法。本专利技术是将Web网络映射到一个二维空间中,并将Web网络中的每个目标页面节点视为具有一定质量的粒子,在其周边存在一个环球对称的虚拟数据场,目标节点位于场的中间,场中的其他节点均受到目标节点生成的数据场的影响。然而与粒子间的相互作用不同,Web网络构成的平面中,节点间之间没有互斥的作用,在Web平面中节点之间具有互相加强的作用力,通过这种作用,节点对本身及周边造成一定的影响力,从而在整个Web平面上确定了类似于物理场的强度函数及标量势函数的描述方法来计算节点对其周边势的影响。从而通过计算每个节点处的场势大小,可以确认节点在社区内的地位,从而为自动化节点分类,划分网络社区提供可能。而且,一个Web社区中的所有节点都是相通的,且社区内的节点间连接数大于其与非社区内节点的连接数。下面对于本专利技术的基于数据场的Web节点排序方法进行说明。图1是表示本专利技术的基于数据场的Web节点排序方法的流程示意图。如图1所示,本专利技术的基于数据场的Web节点排序方法,主要包括下述步骤:映射步骤S101:将Web网络映射到二维空间中并且将Web网络中的每个目标页面节点作为具有一定质量的粒子;计算步骤S102:计算所述每个节点的场势大小;排序步骤S103:根据所述计算步骤得到的每个节点的场势进行排序。所述计算步骤S102包括下述(1)~(5)子步骤:(1)根据场势函数,计算所有节点处的场势并同时记录具有局部最高场势的节点,其中,所述场势函数如下:假设给定Web网络G={V,E},其中,V={v1,v2,...,vn}为节点的非空有限集,E为节点偶对或边的集合,任意节点v∈V的场势可表示为:dji代表节点j和节点i之间的距离,在Web网络图中,指连接两个网页间超链接的数目,本算法采用最短路径表示;mj表示节点的质量,本文中忽略节点本身属性的差异,统一赋值为1;参数σ是可预设的,指示节点场的影响范围;代表节点i所生成的场势,也就是其对其DFP领域内节点的影响力的和:其中dij代表节点i和节点j之间的本文档来自技高网...
一种基于数据场的Web节点排序方法

【技术保护点】
一种基于数据场的Web节点排序方法,其特征在于,包括:映射步骤,将Web网络映射到二维空间中并且将Web网络中的每个目标页面节点作为具有一定质量的粒子;场势计算步骤,计算所述每个节点的场势大小;排序步骤,根据所述计算步骤得到的每个节点的场势进行排序,所述计算步骤包括下述子步骤:步骤(1),根据场势函数,计算所有节点处的场势并同时记录具有局部最高场势的节点;步骤(2),合并一定范围内局部最高场势节点并作为簇的代表节点;步骤(3),从所述代表节点出发,在该代表节点区域内可达范围内,按场势降低的方向进行节点的遍历并判断是否将节点加入到节点簇内;步骤(4),对每加入一个节点均需判断规定条件,若满足规定条件,则跳过当前节点;步骤(5),合并符合一定条件的已有的节点簇。

【技术特征摘要】
1.一种基于数据场的Web节点排序方法,其特征在于,包括:映射步骤,将Web网络映射到二维空间中并且将Web网络中的每个目标页面节点作为具有一定质量的粒子;场势计算步骤,计算所述每个节点的场势大小;排序步骤,根据所述计算步骤得到的每个节点的场势进行排序,所述计算步骤包括下述子步骤:步骤(1),根据场势函数,计算所有节点处的场势并同时记录具有局部最高场势的节点;步骤(2),合并一定范围内局部最高场势节点并作为簇的代表节点;步骤(3),从所述代表节点出发,在该代表节点区域内可达范围内,按场势降低的方向进行节点的遍历并判断是否将节点加入到节点簇内;步骤(4),对每加入一个节点均需判断规定条件,若满足规定条件,则跳过当前节点;步骤(5),合并符合一定条件的已有的节点簇。2.如权利要求1所述的基于数据场的Web节点排序方法,其特征在于,在所述步骤(3)中包括下述步骤:①若与代表节点间的距离为1,则直接将该节点加入到社区中;②若与代表节点间的距离大于1,则计算式其节点簇的场势和,若符合条件,将该节点加入到社区中,并标记该节点,否则不加入该节点;③若节点p对多个簇内的代表节点均是领域内可达的,则分别计算多个簇在该节点处的场势,将节点p划归为在该处有较高场势的簇,并将节点p标记为边界节点。3.如权利要求1所述的基于数据场的...

【专利技术属性】
技术研发人员:赵启飞黄河
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1