一种基于转移概率的网页排序方法及系统技术方案

技术编号:21454080 阅读:54 留言:0更新日期:2019-06-26 04:49
本发明专利技术属于网页排序技术领域,公开了一种基于转移概率的网页排序方法及系统,所述基于转移概率的网页排序系统包括:网页数据爬取模块、中央控制模块、PR值计算模块、关联模块、网页内容监测模块、排序优化模块、显示模块。本发明专利技术通过网页内容监测模块可以在不同时刻获取一网址对应的网页内容,并比较这两个时刻获取的网页内容,判断该网址对应的网页内容是否发生变更。利用该方案监测网页变化需要较少的工作量,监测效率高,可以节省系统资源;同时,本发明专利技术通过排序优化模块改进后的排序算法在Solr搜索引擎中应用良好,提高了网页排序质量和用户体验;考虑了PageRank算法本身的不合理性,改进了算法中的权值分配,可以有效避免主题漂移。

【技术实现步骤摘要】
一种基于转移概率的网页排序方法及系统
本专利技术属于网页排序
,尤其涉及一种基于转移概率的网页排序方法及系统。
技术介绍
网页是构成网站的基本元素,是承载各种网站应用的平台。通俗地说,您的网站就是由网页组成的,如果您只有域名和虚拟主机而没有制作任何网页的话,您的客户仍旧无法访问您的网站。网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记语言格式(标准通用标记语言的一个应用,文件扩展名为.html或.htm)。网页通常用图像档来提供图画。网页要通过网页浏览器来阅读。文字与图片是构成一个网页的两个最基本的元素。你可以简单地理解为:文字,就是网页的内容。图片,就是网页的美观。除此之外,网页的元素还包括动画、音乐、程序等等。然而,现有网页排序过程中不能对网页内容变化进行及时监测,同时,没有考虑PageRank算法中主题漂移缺陷以及网页发布时间因素,排序不够准确,效率低。综上所述,现有技术存在的问题是:现有网页排序过程中不能对网页内容变化进行及时监测,同时,没有考虑PageRank算法中主题漂移缺陷以及网页发布时间因素,排序不够准确,效率低。同时现有抓取程序,效率低,占用内存较大,同时抓取内容重复率高。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于转移概率的网页排序方法及系统。本专利技术是这样实现的,一种基于转移概率的网页排序方法,所述基于转移概率的网页排序方法包括:第一步,利用基于布隆过滤器去重的网络爬虫程序抓取待排序的网页,获取网页发布时间、关键词、关键词权重、词频与链接到排序网页的所有外部链接网页以及当前排序网页的出链数量;第二步,利用转移概率表达式计算马尔科夫链平稳分布时网页的PR值;第三步,利用关联算法将检索关键字与相关网页进行关联;利用监测程序监测网页内容变化信息;第四步,利用优化算法对网页排序进行优化处理;第五步,利用显示器显示网页排序结果。进一步,所述第一步的基于布隆过滤器进行去重具体包括:(1)创建一个空的Bitmap集合;(2)把第一个URL按照三种Hash算法,分别生成三个不同的Hash值;(3)分别判断5,17,9在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把5,17,9的对应位置设置为1;(4)把第二个URL按照三种Hash算法,分别生成三个不同的Hash值;分别判断10,12,9在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把10,12,9的对应位置设置为1;(5)把第三个URL按照三种Hash算法,分别生成三个不同的Hash值;分别判断4,16,11在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把4,16,11的对应位置设置为1;(6)把第四个URL按照三种Hash算法,分别生成三个不同的Hash值分别判断5,17,9在Bitmap的对应位置是否为1;判断的结果是5,17,9在Bitmap对应位置的值都是1,则判定该Url是一个重复的Url。进一步,所述第二步的利用转移概率表达式计算马尔科夫链平稳分布时网页的PR值具体包括:(1)判断获取的当前排序网页的入链数量,用d-(u)表示,其中u为当前网页;1)当d-(u)≠0时,利用以下概率表达式计算马尔科夫链平稳分布时网页的PR值:其中,PR(u)表示当前网页u的PR值,v为链接到当前网页u的所有外部链接网页,d+(v)表示外部链接网页v的出链数量,N为全部网页中没有入链的网页数量总和;2)当d-(u)=0时,利用以下概率表达式计算马尔科夫链平稳分布时网页的PR值:其中,PR(u)表示当前网页u的PR值,N为全部网页中没有入链的网页数量总和。本专利技术的另一目的在于提供一种实现所述基于转移概率的网页排序方法的基于转移概率的网页排序系统,所述基于转移概率的网页排序系统包括:网页数据爬取模块,与中央控制模块连接,用于通过网络爬取程序爬取待排序的网页,获取网页发布时间、关键词、关键词权重、词频与链接到排序网页的所有外部链接网页以及当前排序网页的出链数量;中央控制模块,与网页数据爬取模块、PR值计算模块、关联模块、网页内容监测模块、排序优化模块、显示模块连接,用于通过中央处理器控制各个模块正常工作;PR值计算模块,与中央控制模块连接,用于通过转移概率表达式计算马尔科夫链平稳分布时网页的PR值;关联模块,与中央控制模块连接,用于通过关联算法将检索关键字与相关网页进行关联;网页内容监测模块,与中央控制模块连接,用于通过监测程序监测网页内容变化信息;排序优化模块,与中央控制模块连接,用于通过优化算法对网页排序进行优化处理;显示模块,与中央控制模块连接,用于通过显示器显示网页排序结果。本专利技术的另一目的在于提供一种应用所述基于转移概率的网页排序方法的信息数据处理终端。本专利技术的另一目的在于提供一种包含所述基于转移概率的网页排序方法的计算机程序。本专利技术的优点及积极效果为:本专利技术通过网页内容监测模块可以在不同时刻获取一网址对应的网页内容,并比较这两个时刻获取的网页内容,判断该网址对应的网页内容是否发生变更。利用本申请实施例,通过判断同一网址在不同时刻对应的网页内容的差别是否大于一预设阈值,即可判断该网址对应的网页内容是否发生变更,利用该方案监测网页变化需要较少的工作量,监测效率高,可以节省系统资源;同时,本专利技术通过排序优化模块利用外部域的概念,在现有排序算法中添加了网页重要度和网页时间因素,有效解决了Solr原有排序算法只考虑文本内容而造成的网页排序不够准确的问题,使文本相关度高、权威性高并使更具时效性的网页排在较前位置;改进后的排序算法在Solr搜索引擎中应用良好,提高了网页排序质量和用户体验;考虑了PageRank算法本身的不合理性,改进了算法中的权值分配,可以有效避免主题漂移。本专利技术利用布隆过滤器进行抓取内容的过滤去重,可有效节省内存空间,提高抓取的效率。附图说明图1是本专利技术实施例提供的基于转移概率的网页排序方法流程图。图2是本专利技术实施例提供的基于转移概率的网页排序系统结构示意图;图中:1、网页数据爬取模块;2、中央控制模块;3、PR值计算模块;4、关联模块;5、网页内容监测模块;6、排序优化模块;7、显示模块。具体实施方式为能进一步了解本专利技术的
技术实现思路
、特点及功效,兹例举以下实施例,并配合附图详细说明如下。下面结合附图对本专利技术的结构作详细的描述。如图1所示,本专利技术实施例提供的基于转移概率的网页排序方法包括以下步骤:S101:利用基于布隆过滤器去重的网络爬虫程序抓取待排序的网页,获取网页发布时间、关键词、关键词权重、词频与链接到排序网页的所有外部链接网页以及当前排序网页的出链数量;S102:利用转移概率表达式计算马尔科夫链平稳分布时网页的PR值;S103:利用关联算法将检索关键字与相关网页进行关联;利用监测程序监测网页内容变化信息;S104:利用优化算法对网页排序进行优化处理;S105:利用显示器显示网页排序结果。步骤S101中,本专利技术实施例提供的基于布隆过滤器进行去重具体包括:(1)创建一个空的Bitmap集合;(2)把第一个URL按照三种Hash算法,分别生成三个不同的H本文档来自技高网
...

【技术保护点】
1.一种基于转移概率的网页排序方法,其特征在于,所述基于转移概率的网页排序方法包括:第一步,利用基于布隆过滤器去重的网络爬虫程序抓取待排序的网页,获取网页发布时间、关键词、关键词权重、词频与链接到排序网页的所有外部链接网页以及当前排序网页的出链数量;第二步,利用转移概率表达式计算马尔科夫链平稳分布时网页的PR值;第三步,利用关联算法将检索关键字与相关网页进行关联;利用监测程序监测网页内容变化信息;第四步,利用优化算法对网页排序进行优化处理;第五步,利用显示器显示网页排序结果。

【技术特征摘要】
1.一种基于转移概率的网页排序方法,其特征在于,所述基于转移概率的网页排序方法包括:第一步,利用基于布隆过滤器去重的网络爬虫程序抓取待排序的网页,获取网页发布时间、关键词、关键词权重、词频与链接到排序网页的所有外部链接网页以及当前排序网页的出链数量;第二步,利用转移概率表达式计算马尔科夫链平稳分布时网页的PR值;第三步,利用关联算法将检索关键字与相关网页进行关联;利用监测程序监测网页内容变化信息;第四步,利用优化算法对网页排序进行优化处理;第五步,利用显示器显示网页排序结果。2.如权利要求1所述的基于转移概率的网页排序方法,其特征在于,所述第一步的基于布隆过滤器进行去重具体包括:(1)创建一个空的Bitmap集合;(2)把第一个URL按照三种Hash算法,分别生成三个不同的Hash值;(3)分别判断5,17,9在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把5,17,9的对应位置设置为1;(4)把第二个URL按照三种Hash算法,分别生成三个不同的Hash值;分别判断10,12,9在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把10,12,9的对应位置设置为1;(5)把第三个URL按照三种Hash算法,分别生成三个不同的Hash值;分别判断4,16,11在Bitmap的对应位置是否为1,只要不同时为1,就认为该Url没有重复,于是把4,16,11的对应位置设置为1;(6)把第四个URL按照三种Hash算法,分别生成三个不同的Hash值分别判断5,17,9在Bitmap的对应位置是否为1;判断的结果是5,17,9在Bitmap对应位置的值都是1,则判定该Url是一个重复的Url。3.如权利要求1所述的基于转移概率的网页排序方法,其特征在于,所述第二步的...

【专利技术属性】
技术研发人员:潘显兵程云龙潘俊颐秦春蓉伍君芬
申请(专利权)人:重庆邮电大学移通学院
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1