当前位置: 首页 > 专利查询>中南大学专利>正文

一种网站更新内容的监测方法及系统技术方案

技术编号:17422199 阅读:65 留言:0更新日期:2018-03-09 21:40
本发明专利技术公开了一种网站更新内容的监测方法及系统,该方法包括步骤:根据待测网站的更新频率预算并存储待测网站的更新时间间隔;在每间隔更新时间间隔的时间点,获取待测网站的网页内容并提取条目的文本值;将当次网页内容中提取的条目的文本值与上一次网页内容中提取的条目的文本值进行对比,计算得到所述文本值有变化的条目。该系统包括预算模块、网络爬虫、去噪模块、对比计算模块以及匹配模块。本发明专利技术能以较小的计算量快速准确地获得网站的更新内容,并且可以对任意网站实行实时更新监测,应用广泛全面。

A monitoring method and system for web site update content

The invention discloses a method and system for monitoring a website to update the content, the method comprises the following steps: according to the update interval update frequency to be measured and stored website budget test site; in each interval update interval time, access to web content to be measured and extracted to the website text value; when the text extraction time entries web content values in comparison with text extracted items on a web page content in value, calculated the change text entry. The system includes the budget module, the network crawler, the denoising module, the contrast calculation module and the matching module. The invention can obtain the updated content of the website quickly and accurately with a small amount of computation, and can carry out real-time update monitoring for any website, and is widely applied.

【技术实现步骤摘要】
一种网站更新内容的监测方法及系统
本专利技术涉及互联网数据处理领域,尤其涉及一种网站更新内容的监测方法及系统。
技术介绍
随着互联网的迅猛发展,当今社会进入全面信息时代,各类网站如雨后春笋,截止2011年底,中国网民规模达到4.85亿,位居世界首位,网页数量达到600亿以上,并且这些网页都处在不断的变化更新中,近乎40%的网页一周内会更新。监测网站的更新,从浩瀚信息海洋中获取最需、最新内容,早已成为信息时代大众的迫切需求。RSS(ReallySimpleSyndication,简易信息聚合)阅读器应该算是网站更新监测领域最为成功的产品,它的专利技术出现,给人们带来了巨大的便利,加快了人们获取信息的速度,节省了大量的时间和精力。RSS阅读器是一种软件或者程序,用户可以添加各类网站、博客(这些网站或博客可以称之为频道),接受来自RSS种子(信息源)的最新内容。RSS种子实际上是网站或博客开发人员提供的包含许多Item(条目)的XML(ExtensibleMarkupLanguage,可扩展标记语言)文件,Item是一条新闻或一篇博文,由标题、时间、作者、摘要、最后更新时间等组成。每当频道本文档来自技高网...
一种网站更新内容的监测方法及系统

【技术保护点】
一种网站更新内容的监测方法,其特征在于,包括以下步骤:S2:根据待测网站的更新频率预算并存储所述待测网站的更新时间间隔;S4:在每间隔所述更新时间间隔的时间点,获取所述待测网站的网页内容;S6:在所述获取的网页内容中提取条目的文本值;S8:将当次获取的网页内容中提取的条目的文本值与上一次获取的网页内容中提取的条目的文本值进行对比;包括以下步骤:S801:将所述当次获取的网页内容中提取的条目的文本值与所述上一次获取的网页内容中提取的条目的文本值进行对比,采用字符串对比的方式,找出当次的字符串和上一次的字符串中所有的最长公共子序列;S802:根据找出的所述所有的最长公共子序列,通过分别对每个最长公...

【技术特征摘要】
1.一种网站更新内容的监测方法,其特征在于,包括以下步骤:S2:根据待测网站的更新频率预算并存储所述待测网站的更新时间间隔;S4:在每间隔所述更新时间间隔的时间点,获取所述待测网站的网页内容;S6:在所述获取的网页内容中提取条目的文本值;S8:将当次获取的网页内容中提取的条目的文本值与上一次获取的网页内容中提取的条目的文本值进行对比;包括以下步骤:S801:将所述当次获取的网页内容中提取的条目的文本值与所述上一次获取的网页内容中提取的条目的文本值进行对比,采用字符串对比的方式,找出当次的字符串和上一次的字符串中所有的最长公共子序列;S802:根据找出的所述所有的最长公共子序列,通过分别对每个最长公共子序列进行回溯匹配得到所述当次的字符串和上一次的字符串的差异部分;S803:在所述差异部分中选取因插入新内容而产生的差异部分,与所述上一次的字符串进行匹配:S804A:当所述因插入新内容而产生的差异部分存在于所述上一次的字符串中时,判定所述因插入新内容而产生的差异部分插入的不是新内容,并排除所述插入新内容而产生的差异部分以及对应的所述回溯匹配的匹配结论;S804B:当所述因插入新内容而产生的差异部分不存在于所述上一次的字符串中时,判定所述因插入新内容而产生的差异部分插入的是新内容,则保留所述因插入新内容而产生的差异部分,并且存储记录所述回溯匹配的匹配结论;S10:通过所述对比,计算得到所述文本值有变化的条目。2.根据权利要求1所述的监测方法,其特征在于,在所述步骤S4完成之后,所述方法还包括:S5:将当次获取的网页内容条目存储在数据库中。在除首次之外的每次执行所述步骤S8时,将当次获取的网页内容中提取的条目的文本值与数据库中存储的上一次获取的网页内容中提取的条目的文本值进行对比。3.根据权利要求1所述的监测方法,其特征在于,在所述步骤S10完成后,所述方法还包括:S12:计算得到所述文本值有变化的条目后,将所述文本值有变化的条目存储在数据库中,并根据所述条目的发布或者修改时间将所述文本值有变化的条目排序后返回给用户。4.根据权利要求1所述的监测方法,其特征在于,所述步骤S6中在所述获取的网页内容中提取条目的文本值,包括以下步骤:S601:提取所述获取的网页内容,去除所述网页内容中的网页标签和链接,保留所述网页内容中的所有超链接的文本值。5.根据权利要求1至4中任一项所述的监测方法,其特征在于,所述步骤S801中,采用字符串对比的方式,找出当次的字符串和上一次的字符串中所有的最长公共子序列,找出方式如下:当次的字符串和上一次的字符串分别用字符串A和字符串B表示,进行如下步骤:S8011:用A(1:i)表示长度为m的字符串A的连续子序列A[1]A[2]...A[i],用B(1:j)表示长度为n的字符串B的连续子序列B[1]B[2]...B[j],Li(k)表示所有与字符串A(1...

【专利技术属性】
技术研发人员:郭克华周孝锞
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1