当前位置: 首页 > 专利查询>天津大学专利>正文

复杂网络中节点重要性在垃圾网页检测中的应用方法技术

技术编号:19745312 阅读:38 留言:0更新日期:2018-12-12 04:45
一种复杂网络中节点重要性在垃圾网页检测中的应用方法:数据预处理,是把已知的特征数据进行规范化,规范化后使用PCA算法进行特征提取,减少特征维数,使新的空间维度低于原特征空间;计算网页之间链接的权重与网页的介数指标,并将介数指标与所述的权重融合计算出每个网页的重要性评分;根据重要性评分进行排序,选取评分最高和最低的网页共同构成种子集,并对每个网页赋予信任度初值;计算集聚系数,将集聚系数高于阈值的网页作为可以信任的网页;计算信任度转移矩阵;利用转移矩阵TC迭代计算CTRank得分,将收敛后的CTRank得分进行排序。本发明专利技术可以有效检测垃圾网页,并取得明显效果,可以使垃圾网页的排名降低。

【技术实现步骤摘要】
复杂网络中节点重要性在垃圾网页检测中的应用方法
本专利技术涉及一种网页检测。特别是涉及一种复杂网络中节点重要性在垃圾网页检测中的应用方法.
技术介绍
目前在相关技术中主要有以下两类:一类是PageRank链接分析网页计算方式,这个方法是基于链接结构的十分经典的计算方法。现有的许多的链接结构的排序算法都是基于此改进的。PageRank技术是根据入链数量多以及质量高的网页来排序的,即根据它们计算每个网页的PageRank值,然后根据这个值的大小把每个网页进行重要性排序。其思路是通过模拟一个普通的上网者进行的,上网者可能随机选择打开一个网页去浏览该网页,然后再跳转到与该网页有链接关系的其它网页,如此这样浏览下去,PageRank主要完成了计算平常人在上网时查阅每个网页可能性的情况。PageRank算法常常通过迭代的方法来完成,迭代完成后,其值会在某一点收敛。PageRank算法虽然在搜索引擎中受到欢迎,但是仍存在一定的缺陷。缺陷之一,PageRank算法仅仅将排序作为划分的标准,评判过程简单粗糙;缺陷之二,PageRank显然对于建立时间较长的网页带来的益处更多。因为如果在很早的时候就将网页建成,则随着时间的流逝,它在推荐性方面有很大的优势。但是,PageRank技术的局限性会导致网页最后的排名不一定准确。因为评定的网页质量未必就是真实的质量,无法进行衡量,只能按照一定的标准进行计算。另一类TrustRank算法也是一种基于链接关系的排名算法。采用TrustRank算法计算排名顺序,可以有效阻止操纵排名、提升搜索结果质量的作弊手段。使用这一技术,可以使垃圾网页制造者们难以在较短的时间里改变排名顺序,所以排名的质量得以提高。它主要是利用部分网页的信任值,来判断其它的网页,网页的TrustRank值越大,说明它的质量越好。但是,随着科学技术的飞速发展,很多垃圾网页的制造者的作弊手法也同步地日新月异。比如,在一些高质量的网页的评论区随意粘贴自己的垃圾网页的网址,由此,就可以利用TrustRank算法假设存在的漏洞来提高自己的排名。
技术实现思路
本专利技术所要解决的技术问题是,提供一种基于介数指标和集聚系数的垃圾网页检测算法的复杂网络中节点重要性在垃圾网页检测中的应用方法。本专利技术所采用的技术方案是:一种复杂网络中节点重要性在垃圾网页检测中的应用方法,包括如下步骤:1)数据预处理,是把已知的特征数据进行规范化,将数据压缩到一个范围内,赋予所有属性相等的权重,对数据进行规范化,消除量纲对数据后续计算的影响;规范化后使用PCA算法进行特征提取,减少特征维数,使新的空间维度低于原特征空间;2)计算网页之间链接的权重与网页的介数指标,并将介数指标与所述的权重融合计算出每个网页的重要性评分;3)根据重要性评分进行排序,选取评分最高和最低的网页共同构成种子集,并对每个网页赋予信任度初值;4)计算集聚系数,将集聚系数高于阈值的网页作为可以信任的网页;5)计算信任度转移矩阵;6)利用转移矩阵TC迭代计算CTRank得分,将收敛后的CTRank得分进行排序。步骤1)所述的规范化是采用z-score规范化的计算公式:式中,是属性A的平均值,σA表示属性A的标准差,νi表示第i个数据在属性A上的值,ν′i是经过规范化后第i个数据在属性A上的值;使用z-score规范化处理特征向量后,使所有特征数据的取值范围都在0至1之间,消除量纲对数据后续计算的影响。步骤2)所述的计算网页之间链接的权重,采用下式:式中,disti,j代表从网页i到网页j之间的欧式距离,wi,j为计算过后得到的从网页i到网页j的权重值。步骤2)所述的介数指标为:式中,σst(v)是从s到t且通过点v的最短路径数,而σst是从s到t的最短路径的总数,每个路径的终点也被算作路径的一部分;bcc(v)是点v的介数指标值;把所有网页带入上式即得到每个网页的介数指标值。步骤2)所述的重要性评分是这个网页的全部出链网页的介数指标值乘以对应链接的权重值的和,然后加上这个网页自身的介数指标值,如下式所示:其中,BCW(i)为网页i的最终的重要性评分,wi,j为网页i到网页j的链接的权重值,bci为网页i的介数指标值,n为网页i的出链数。步骤3)具体是将网页按照重要性评分从大到小排序,将重要性评分最高的网页作为信任的种子,将重要性评分最低的网页作为垃圾的种子,并共同组成种子集,之后对所有网页赋予信任度初值,将信任的种子赋予正值,垃圾的种子赋予负值,而其它的网页赋予0,具体计算公式如下:其中W为垃圾种子,v为垃圾种子的个数,T为信任种子,u为信任种子的个数,di为网页i的信任度初值。步骤4)所述的集聚系数的计算公式如下:式中,k为节点i的所有入链之间互相连接的边的个数,IN(i)为节点i的所有入链的节点的个数,即节点i的入度,ClusterCoefficient(i)为节点i的集聚系数。步骤5)集聚系数评估完成后,开始进行差异化地信任值分裂,也就是计算信任度转移矩阵:其中,θ(u)为网页u的出链集合,为网页u的出链网页中集聚系数高的网页的出链数,网页u的其它出链数之和,O(i)表示网页i的出链数,CC是根据集聚系数评估出的可以信任的网页集合,TC(i,u)为信任度转移矩阵的第i行第u列。步骤6)所述的利用转移矩阵TC迭代计算CTRank得分,是采用下式:cti=α·TC(i)·cti-1+(1-α)·d其中,α代表衰减因子,TC(i)为第i次迭代的转移矩阵,d是初始被分配的信任值,cti为网页第i次迭代的CTRank得分。本专利技术的复杂网络中节点重要性在垃圾网页检测中的应用方法,可以有效检测垃圾网页,并取得明显效果,可以使垃圾网页的排名降低。具体具有如下优点:1、提出了一种新的选取种子集的方法,解决了垃圾网页制造者会在高质量的网页里添加外联,提升自己在网络中的排名这一问题。2、提出了CTRank排序算法,把集聚系数中的邻居数改为使用入链数来代替计算,根据改变后的集聚系数的得分和每个节点的出链情况,提出使用不同方法来差异化地计算信任度转移矩阵,改善了TrustRank算法在计算信任度转移矩阵时平均分配链接权重、而忽略网页重要性的问题。具体实施方式下面结合实施例对本专利技术的复杂网络中节点重要性在垃圾网页检测中的应用方法做出详细说明。本专利技术的复杂网络中节点重要性在垃圾网页检测中的应用方法,包括如下步骤:1)数据预处理,是把已知的特征数据进行规范化,将数据压缩到一个范围内,赋予所有属性相等的权重,对数据进行规范化,消除量纲对数据后续计算的影响;使用PCA算法进行特征提取,减少特征维数,使新的空间维度低于原特征空间,方便进行接下来的计算;所述的规范化是采用z-score规范化的计算公式:式中,是属性A的平均值,σA表示属性A的标准差,νi表示第i个数据在属性A上的值,ν′i是经过规范化后第i个数据在属性A上的值;使用z-score规范化处理特征向量后,使所有特征数据的取值范围都在0至1之间,消除量纲对数据后续计算的影响。2)计算网页之间链接的权重与网页的介数指标,并将介数指标与所述的权重融合计算出每个网页的重要性评分;其中,当两个网页之间存在链接关系的时候,如果这两个网页之间的距离值很小,那么说明相似本文档来自技高网
...

【技术保护点】
1.一种复杂网络中节点重要性在垃圾网页检测中的应用方法,其特征在于,包括如下步骤:1)数据预处理,是把已知的特征数据进行规范化,将数据压缩到一个范围内,赋予所有属性相等的权重,对数据进行规范化,消除量纲对数据后续计算的影响;规范化后使用PCA算法进行特征提取,减少特征维数,使新的空间维度低于原特征空间;2)计算网页之间链接的权重与网页的介数指标,并将介数指标与所述的权重融合计算出每个网页的重要性评分;3)根据重要性评分进行排序,选取评分最高和最低的网页共同构成种子集,并对每个网页赋予信任度初值;4)计算集聚系数,将集聚系数高于阈值的网页作为可以信任的网页;5)计算信任度转移矩阵;6)利用转移矩阵TC迭代计算CTRank得分,将收敛后的CTRank得分进行排序。

【技术特征摘要】
1.一种复杂网络中节点重要性在垃圾网页检测中的应用方法,其特征在于,包括如下步骤:1)数据预处理,是把已知的特征数据进行规范化,将数据压缩到一个范围内,赋予所有属性相等的权重,对数据进行规范化,消除量纲对数据后续计算的影响;规范化后使用PCA算法进行特征提取,减少特征维数,使新的空间维度低于原特征空间;2)计算网页之间链接的权重与网页的介数指标,并将介数指标与所述的权重融合计算出每个网页的重要性评分;3)根据重要性评分进行排序,选取评分最高和最低的网页共同构成种子集,并对每个网页赋予信任度初值;4)计算集聚系数,将集聚系数高于阈值的网页作为可以信任的网页;5)计算信任度转移矩阵;6)利用转移矩阵TC迭代计算CTRank得分,将收敛后的CTRank得分进行排序。2.根据权利要求1所述的复杂网络中节点重要性在垃圾网页检测中的应用方法,其特征在于,步骤1)所述的规范化是采用z-score规范化的计算公式:式中,是属性A的平均值,σA表示属性A的标准差,νi表示第i个数据在属性A上的值,νi′是经过规范化后第i个数据在属性A上的值;使用z-score规范化处理特征向量后,使所有特征数据的取值范围都在0至1之间,消除量纲对数据后续计算的影响。3.根据权利要求1所述的复杂网络中节点重要性在垃圾网页检测中的应用方法,其特征在于,步骤2)所述的计算网页之间链接的权重,采用下式:式中,disti,j代表从网页i到网页j之间的欧式距离,wi,j为计算过后得到的从网页i到网页j的权重值。步骤2)所述的介数指标为:式中,σst(v)是从s到t且通过点v的最短路径数,而σst是从s到t的最短路径的总数,每个路径的终点也被算作路径的一部分;bcc(v)是点v的介数指标值;把所有网页带入上式即得到每个网页的介数指标值。步骤2)所述的重要性评分是这个网页的全部出链网页的介数指标值乘以对应链接的权重值的和,然后加上这...

【专利技术属性】
技术研发人员:罗韬刘伟喻梅徐天一赵满坤郭佳
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1