【技术实现步骤摘要】
一种基于转移概率的网页排序方法及系统
本专利技术属于网页排序
,尤其涉及一种基于转移概率的网页排序方法及系统。
技术介绍
网页是构成网站的基本元素,是承载各种网站应用的平台。通俗地说,您的网站就是由网页组成的,如果您只有域名和虚拟主机而没有制作任何网页的话,您的客户仍旧无法访问您的网站。网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记语言格式(标准通用标记语言的一个应用,文件扩展名为.html或.htm)。网页通常用图像档来提供图画。网页要通过网页浏览器来阅读。文字与图片是构成一个网页的两个最基本的元素。你可以简单地理解为:文字,就是网页的内容。图片,就是网页的美观。除此之外,网页的元素还包括动画、音乐、程序等等。然而,现有网页排序过程中不能对网页内容变化进行及时监测,同时,没有考虑PageRank算法中主题漂移缺陷以及网页发布时间因素,排序不够准确,效率低。综上所述,现有技术存在的问题是:现有网页排序过程中不能对网页内容变化进行及时监测,同时,没有考虑PageRank算法中主题漂移缺陷以及 ...
【技术保护点】
1.一种基于转移概率的网页排序方法,其特征在于,所述基于转移概率的网页排序方法包括:第一步,利用基于布隆过滤器去重的网络爬虫程序抓取待排序的网页,获取网页发布时间、关键词、关键词权重、词频与链接到排序网页的所有外部链接网页以及当前排序网页的出链数量;第二步,利用转移概率表达式计算马尔科夫链平稳分布时网页的PR值;第三步,利用关联算法将检索关键字与相关网页进行关联;利用监测程序监测网页内容变化信息;第四步,利用优化算法对网页排序进行优化处理;第五步,利用显示器显示网页排序结果。
【技术特征摘要】
1.一种基于转移概率的网页排序方法,其特征在于,所述基于转移概率的网页排序方法包括:第一步,利用基于布隆过滤器去重的网络爬虫程序抓取待排序的网页,获取网页发布时间、关键词、关键词权重、词频与链接到排序网页的所有外部链接网页以及当前排序网页的出链数量;第二步,利用转移概率表达式计算马尔科夫链平稳分布时网页的PR值;第三步,利用关联算法将检索关键字与相关网页进行关联;利用监测程序监测网页内容变化信息;第四步,利用优化算法对网页排序进行优化处理;第五步,利用显示器显示网页排序结果。2.如权利要求1所述的基于转移概率的网页排序方法,其特征在于,所述第一步的基于布隆过滤器进行去重具体包括:(1)创建一个空的Bitmap集合;(2)把第一个URL按照三种Hash算法,分别生成三个不同的Hash值;(3)分别判断5,17,9在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把5,17,9的对应位置设置为1;(4)把第二个URL按照三种Hash算法,分别生成三个不同的Hash值;分别判断10,12,9在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把10,12,9的对应位置设置为1;(5)把第三个URL按照三种Hash算法,分别生成三个不同的Hash值;分别判断4,16,11在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把4,16,11的对应位置设置为1;(6)把第四个URL按照三种Hash算法,分别生成三个不同的Hash值分别判断5,17,9在Bitmap的对应位置是否为1;判断的结果是5,17,9在Bitmap对应位置的值都是1,则判定该Url是一个重复的Url。3.如权利要求1所述的基于转移概率的网页排序方法,其特征在于,所述第二步的...
【专利技术属性】
技术研发人员:潘显兵,程云龙,潘俊颐,秦春蓉,伍君芬,
申请(专利权)人:重庆邮电大学移通学院,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。