一种索引页更新方法及装置制造方法及图纸

技术编号:6844693 阅读:277 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种索引页更新方法,包括:根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;根据所述相关信息,判断所述索引页当前是否需要更新;当所述判断结果为是时,根据所述相关信息更新所述索引页。相应地,本发明专利技术还公开了一种索引页更新装置。本发明专利技术基于概率、分时间段的更新索引页,能够精确预测索引页变化时间点,减少更新时延,提高时效性,提高用户体验。

【技术实现步骤摘要】

本专利技术涉及计算机网络
,尤其涉及一种索引页更新方法及装置
技术介绍
互联网上的网页,分为索引页和信息页。索引页,指网站内不断发布新内容(新链接)的页面,比如新闻频道首页、体育频道首页、论坛版的页面、博客日志列表页等。信息页,指包括文本信息的页面,比如点击新闻频道首页的某链接而打开的页面、点击体育频道首页的某链接而打开的页面、点击博客日志列表页中某列表而打开的某日志的页面等。搜索引擎(search engine)指根据一定的策略,运用特定的计算机程序搜集互联网上的信息,对信息进行组织和处理后,将处理后的信息显示给用户,并为用户提供检索服务。搜索引擎发现互联网上出现的新页面的主要途径即是对索引页的更新,当搜索引擎预测到索引页发生变化时,及时从互联网上获取新内容以更新索引页,并提供给用户检索。现有通过搜索引擎对索引页更新的方案主要有两种其一为搜索引擎根据经验或统计,将索引页数据库内的各个索引页分别预先设定更新频率的简单分级,比如一分钟一次、一小时一次、一天一次、一星期一次等多个级别,每个索引页分别按各自的更新频率进行更新。这种更新方法采用固定频率更新方式,由于索引页的变化是动态的,比如某索引页可能一段时间更新变快或忽然变慢,采用固定频率更新的方式显然不符合对动态变化的索引页的更新,降低了用户体验。其二为搜索引擎预先为每个索引页设定一个更新频率序列,比如为某索引页预设等比的更新频率序列5分钟、10分钟、20分钟、40分钟、80分钟、160分钟、320分钟......,第一次更新该索引页时采用一个默认级别,比如160分钟,当本次更新索引页后,将更新得到的索引页内容与上次的内容对比,如果页面有变化,则将更新频率调整为80 分钟,如果页面没有变化,则将更新频率调整为320分钟。这种更新方法采用动态调整更新频率的方式,对于变化频率较低,比如一天变化一次的索引页,或者在一天内变化频率比较均勻的索引页,其更新效果较好,可以比较精确的预测索引变化的时间点。上述的索引页的更新方案都是基于频率的,专利技术人在实施本专利技术的过程中发现, 现有的基于频率的索引页的更新方案主要存在以下缺陷1、存在更新时延,时效性差。现有的方案并不适用于一天内变化频率较高,且在不同时间段变化频率有明显变化的索引页的更新。比如大部分新闻频道首页上午变化很快,但夜间基本不变化,采用现有的方案,由于在夜间长期探测到页面没有变化,多次探测以后,搜索引擎会将这个新闻频道首页的更新频率下调到很低,比如几个小时才更新一次,第二天上午再更新这个新闻频道首页时,可能已经产生了几个小时的时延,甚至可能更早时发布的新闻已经从该新闻频道的首页上撤下,搜索引擎无法发现这个新闻,从而造成了更新时延,降低了搜索引擎的收录时效性,同时降低了用户体验;2、耗费资源。如1所述,大部分索引页白天变化频繁,夜间基本不变化;由于在白天探测到页面频繁变化,多次探测后,搜索引擎会将这个索引页的更新频率上调到很高,比如几分钟就更新一次,到夜晚时,索引页基本未变化,但依然会根据该频率进行多次更新, 造成搜索引擎的资源浪费,降低了对索引页变化时间点的探测精确度。
技术实现思路
本专利技术的目的在于,提供一种索引页更新方法及装置,采用基于概率和分时间段的更新方案,能够精确预测索引页变化时间点,减少更新时延,提高时效性,提高用户体验。为了实现上述目的,本专利技术实施例提供了一种索引页更新方法,包括根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;根据所述相关信息,判断所述索引页当前是否需要更新;当所述判断结果为是时,根据所述相关信息更新所述索引页。优选地,所述根据所述相关信息,判断所述索引页当前是否需要更新,包括根据所述相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;判断所述累积概率是否大于1 ;当所述判断结果为是时,判定所述索引页当前需要更新。优选地,所述根据所述相关信息更新所述索引页,包括根据所述索引页的url,从网络中抓取所述url对应的网页源内容;对所述抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。优选地,所述根据所述相关信息更新所述索引页之后,还包括根据所述新的索引页的主要内容,计算所述新的索引页的页面指纹;判断所述计算得到的新的索引页的页面指纹和从所述索引页数据库读取的所述索引页的页面指纹是否相同;如果判断结果为是,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;如果判断结果为否,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹。优选地,所述根据预设的周期,从索引页数据库读取索引页的相关信息之前,还包括预先设定索引页数据库的访问周期,所述索引页数据库包括多个索引页以及各索引页的相关信息;预先将一天分为多个预设时间段;预先设定索引页在所述各个预设时间段内的页面变化概率。相应地,本专利技术实施例还提供了一种索引页更新装置,包括调度模块,用于根据预设的周期,从索引页数据库读取索引页的相关信息,并根据所述相关信息,判断所述索引页当前是否需要更新;更新模块,用于当所述调度模块判断结果为是时,根据所述相关信息更新所述索引页。5 优选地,所述调度模块包括读取单元,用于根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;计算单元,用于根据所述读取单元读取的相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;第一判断单元,用于判断所述计算单元计算的所述累积概率是否大于1 ;更新判定单元,用于当所述第一判断单元判断结果为是时,判定所述索引页当前需要更新。优选地,所述更新模块包括抓取单元,用于根据所述调度模块读取的所述索引页的url,从网络中抓取所述 url对应的网页源内容;抽取单元,用于对所述抓取单元抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。优选地,所述装置还包括回写模块,用于计算所述更新模块更新后的新的索引页的页面指纹,对比所述调度模块读取的所述索引页的页面指纹,根据所述对比的结果调整所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率。优选地,所述回写模块包括指纹计算单元,用于根据所述更新模块更新后的新的索引页的主要内容,计算所述新的索引页的页面指纹;第二判断单元,用于判断所述指纹计算单元计算得到的新的索引页的页面指纹与所述调度模块读取的所述索引页的页面指纹是否相同;概率调整单元,用于当所述第二判断单元判断结果为是时,将所述索引页数据库内、所述当前时间与所述索引页的上次本文档来自技高网
...

【技术保护点】
1.一种索引页更新方法,其特征在于:根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;根据所述相关信息,判断所述索引页当前是否需要更新;当所述判断结果为是时,根据所述相关信息更新所述索引页。

【技术特征摘要】

【专利技术属性】
技术研发人员:邓大付颜俊伟薛晶晶文杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1