一种基于转移概率的网页排序方法及系统技术方案

技术编号:21454080 阅读:67 留言:0更新日期:2019-06-26 04:49
本发明专利技术属于网页排序技术领域,公开了一种基于转移概率的网页排序方法及系统,所述基于转移概率的网页排序系统包括:网页数据爬取模块、中央控制模块、PR值计算模块、关联模块、网页内容监测模块、排序优化模块、显示模块。本发明专利技术通过网页内容监测模块可以在不同时刻获取一网址对应的网页内容,并比较这两个时刻获取的网页内容,判断该网址对应的网页内容是否发生变更。利用该方案监测网页变化需要较少的工作量,监测效率高,可以节省系统资源;同时,本发明专利技术通过排序优化模块改进后的排序算法在Solr搜索引擎中应用良好,提高了网页排序质量和用户体验;考虑了PageRank算法本身的不合理性,改进了算法中的权值分配,可以有效避免主题漂移。

【技术实现步骤摘要】
一种基于转移概率的网页排序方法及系统
本专利技术属于网页排序
,尤其涉及一种基于转移概率的网页排序方法及系统。
技术介绍
网页是构成网站的基本元素,是承载各种网站应用的平台。通俗地说,您的网站就是由网页组成的,如果您只有域名和虚拟主机而没有制作任何网页的话,您的客户仍旧无法访问您的网站。网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记语言格式(标准通用标记语言的一个应用,文件扩展名为.html或.htm)。网页通常用图像档来提供图画。网页要通过网页浏览器来阅读。文字与图片是构成一个网页的两个最基本的元素。你可以简单地理解为:文字,就是网页的内容。图片,就是网页的美观。除此之外,网页的元素还包括动画、音乐、程序等等。然而,现有网页排序过程中不能对网页内容变化进行及时监测,同时,没有考虑PageRank算法中主题漂移缺陷以及网页发布时间因素,排序不够准确,效率低。综上所述,现有技术存在的问题是:现有网页排序过程中不能对网页内容变化进行及时监测,同时,没有考虑PageRank算法中主题漂移缺陷以及网页发布时间因素,排本文档来自技高网...

【技术保护点】
1.一种基于转移概率的网页排序方法,其特征在于,所述基于转移概率的网页排序方法包括:第一步,利用基于布隆过滤器去重的网络爬虫程序抓取待排序的网页,获取网页发布时间、关键词、关键词权重、词频与链接到排序网页的所有外部链接网页以及当前排序网页的出链数量;第二步,利用转移概率表达式计算马尔科夫链平稳分布时网页的PR值;第三步,利用关联算法将检索关键字与相关网页进行关联;利用监测程序监测网页内容变化信息;第四步,利用优化算法对网页排序进行优化处理;第五步,利用显示器显示网页排序结果。

【技术特征摘要】
1.一种基于转移概率的网页排序方法,其特征在于,所述基于转移概率的网页排序方法包括:第一步,利用基于布隆过滤器去重的网络爬虫程序抓取待排序的网页,获取网页发布时间、关键词、关键词权重、词频与链接到排序网页的所有外部链接网页以及当前排序网页的出链数量;第二步,利用转移概率表达式计算马尔科夫链平稳分布时网页的PR值;第三步,利用关联算法将检索关键字与相关网页进行关联;利用监测程序监测网页内容变化信息;第四步,利用优化算法对网页排序进行优化处理;第五步,利用显示器显示网页排序结果。2.如权利要求1所述的基于转移概率的网页排序方法,其特征在于,所述第一步的基于布隆过滤器进行去重具体包括:(1)创建一个空的Bitmap集合;(2)把第一个URL按照三种Hash算法,分别生成三个不同的Hash值;(3)分别判断5,17,9在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把5,17,9的对应位置设置为1;(4)把第二个URL按照三种Hash算法,分别生成三个不同的Hash值;分别判断10,12,9在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把10,12,9的对应位置设置为1;(5)把第三个URL按照三种Hash算法,分别生成三个不同的Hash值;分别判断4,16,11在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把4,16,11的对应位置设置为1;(6)把第四个URL按照三种Hash算法,分别生成三个不同的Hash值分别判断5,17,9在Bitmap的对应位置是否为1;判断的结果是5,17,9在Bitmap对应位置的值都是1,则判定该Url是一个重复的Url。3.如权利要求1所述的基于转移概率的网页排序方法,其特征在于,所述第二步的...

【专利技术属性】
技术研发人员:潘显兵程云龙潘俊颐秦春蓉伍君芬
申请(专利权)人:重庆邮电大学移通学院
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1