一种及时高效的互联网信息爬取方法技术

技术编号:8862339 阅读:255 留言:0更新日期:2013-06-28 01:33
本发明专利技术公开了一种及时高效的互联网信息爬取方法,属于信息技术领域。本方法为:1)设定种子地址,爬取保存网页信息并确定导航页面;2)对每一导航页面进行多次爬取,并对爬取的网页进行分析标注;4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型;5)预测每一网站导航页面下一次变更时间,确定下一爬取时间,爬取导航页面并提取未爬取过的子页面地址和锚文本;6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断,并据判断结果分别处理;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,确定下一爬取时间进行网页爬取。本发明专利技术能在较小负载下,保证所采集信息的新颖性和主题性。

【技术实现步骤摘要】

本专利技术属于信息
,尤其涉及。
技术介绍
随着互联网的快速发展,它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。从其中包含的内容看,互联网上存在众多的通过超链接方式链接在一起的网页信息,并且其中相当大的一部分具有动态变化的特点;以此为基础,互联网上可以提供众多的服务,而且通过人、组织等之间的交流形成了一个和真实社会有一定对应、关联关系的虚拟社会。为此,以从互联网的结构、内容、日志等之中探寻有用知识为目标的Web数据挖掘得到了很大的关注和发展,以互联网上的内容作为挖掘对象的内容挖掘尤其如此。以这些挖掘工作为基础的应用也得到了广泛的关注,服务于多种目的的互联网信息监控、信息预警等即是这样的应用。为进行互联网上的内容挖掘和执行特定的信息监控、预警等应用,首先需要采用一定的技术采集符合要求的互联网内容,这一般需要通过基于有限范围爬取、垂直爬取或主题爬取等技术的互联网信息爬虫(Crawler)系统完成。很明显,信息监控、预警等应用对采集的信息有着特定的不同于一般搜索引擎的需求,其中两个最重要需求是:(I)信息的主题相关性,即所采集的信息应符合预期的主题需要,或者说采集的信息在内容上和预定话题或者主题应该是相关的;(2)信息的新颖性,即要保证目标网站所出现的新信息能在第一时间得到。关于信息的主题性问题,考虑到互联网上的信息超大规模,为支持特定的信息监控等应用,对互联网上的所有信息进行完全采集是不现实的,也是无意义的。对此,可以采用主题聚焦技术对互联网上的信息进行分类,对相关内容进行快速采集,而对不相关内容则采取抛弃措施。为了判断页面是否相关,锚文本、链接结构等是可以利用的条件。在对一个网页进行是否相关分类的基础上,可以采取对其(假定相关)内部的子链接全部访问、据特征赋以不同的分值后排序并按照次序进行访问的方法等。从实践的效果看,采取这些主题爬取技术做法得到的效果尚有进一步提高的必要。关于网页信息的新颖性问题-即目标网站中出现的网页信息在一定时间范围内(比如10分钟)是否在本地数据库中出现的问题。与此相关联的是通用搜索引擎中的时新性问题。关于信息的时新性问题,从一般搜索引擎的角度看,主要考虑到互联网上的网页信息在不停的增加、删除和修改。为了准确的查看网页中的内容,需要搜索引擎的爬虫对已经爬取过的页面进行访问看它们是否发生了变化,以保持网页集合的时新性-指所抓取的网页中当前为新网页的比例。简单的考虑,为保证所采集的页面都是最新的,可以不停的去访问页面,但这会给信息提供者、信息采集者带来极大的采集负载(包括可能影响网站的正常运行、增加了极大的网络流量等等)。为此,有研究工作对网页的变化情况进行总体研究,并在此基础上对网页的重新访问进行规划。但注意到一般搜索引擎所关注的信息时新性问题不同于前述的页面新颖性问题。信息监控、预警应用中主要关注的问题是目标网站出现的新信息是否在有限的时间范围内被抓取回来了,相对而言,对时间非常敏感,其关注每一个网页对象,同时其对信息的主题范围比较关注。而一般搜索引擎主要关注的问题是抓取回来的网页信息是否发生了变化,如果发生变化,则要更新,相对而言对时间不太敏感,其关注本地资源库的总体指标,同时其不关注信息的主题范围;另外,相关研究中对网页的重新访问规划往往基于事先设定的条件(比如网页的变化规律),但这些条件在现实情况下往往不能满足,因此网页重新访问规划的效果往往比较差。因此这些技术不能直接应用到信息监控、预警应用中。为满足互联网信息监控、信息预警等应用的信息需求,另外一个需要考虑的问题是:如何将互联网信息的主题爬取(关注页面的话题相关性)和及时爬取(关注页面的新颖性问题)等技术思路结合在一起,优化、整合相关技术以形成一个及时、高效的互联网信息爬虫系统。经过查阅文献发现,目前尚未有研究工作涉及于此。因此,为满足互联网信息监控、信息预警等应用的信息需求,迫切需要解决以下问题:优化、开发互联网信息主题爬取、及时爬取相关技术,并整合形成一个及时、高效的互联网信息爬虫系统,以在较低信息爬取负载(比如对信息提供网站有较小的影响、产生较少的无效网络流量等)条件下保证所获取网页信息的新颖性、主题性特征。
技术实现思路
为解决上述的问题,本专利技术的目的在于提供一种在较低采集负载(比如对提供信息的网站有较低的影响、减少无效的网络流量等)的条件下保证所爬取页面新颖性、主题性的互联网信息爬取方法。借鉴智能系统思路,方法中形成的步骤如下所述。一、信息收集和整理设定种子Url、爬取层数限制、爬取的最大页面数等参数,采用通用爬虫对网页进行爬取并保存;在分析这些网页所属网站及其导航页面的基础上,对每一网站分配一特定专用的爬取线程,并在一确定的时间范围内进行频繁(时间间隔较小)页面爬取,并保存相关信息。二、建立模型对频繁爬取的网页信息进行整理、分析,即将爬取的每一个网站的页面分为导航页面、主题相关页面、主题不相关页面、后续页面等类别。对每一网站,将爬取的主题相关页面的发布时间(即导航页面的主题相关子页面发布时间)形成一时间序列的基础上,建立导航页面变更的时间序列预测模型;同时,基于上述建立的页面集合,建立主题相关、主题不相关、后续页面判断模型以及通用的主题相关判断模型。三、网页信息爬取各网站对应的线程按照时间序列预测模型的时间预测值,进行导航页面及其子页面的爬取,过程中对页面进行上述主题相关、主题不相关、后续页面不同类别判断并进行分别的处理。对于属于主题相关的页面进行爬取保存并进行二次过滤确认。同时计算导航页面下一次变更的时间预测值,为后续页面爬取提供时间依据。四、网页信息后续处理对经过上述步骤爬取得到的主题相关的网页信息,按照预定的信息监控等需求,进行网页信息的后续处理。五、样本、模型更新在新爬取得到的网页信息基础上,定期执行样本集合、模型的更新:对经过判断模型分类后的网页等进行二次审核-确认其类别是否正确,并将经过审核步骤后的信息按照其准确的类别属性增加到不同的类别中;在更新后的样本集合基础上,进行各类别的判断模型、时间序列预测模型更新。六、网站监控列表更新对于网页爬取过程中发现的新网站,定期执行页面分析、整理、建立时间序列预测模型及主题判断模型等后加入网站监控列表中。同时对于列表中一定时间范围内采集的主题相关页面数小于事先设定阈值的网站,则停用。本专利技术在信息收集和整理过程中设定种子Url等爬取参数后采用通用爬虫获得初始的网页信息,并对这些网页信息进行链接结构分析后得到网页信息所属网站及其导航页面的列表,从而简化了信息监控问题的范围和复杂程度。本专利技术在网页信息分析、整理的基础上,对每一个网站分配给特定的爬取线程负责此网站的信息爬取工作,进一步简化了信息监控问题中资源分配的问题。本专利技术对频繁爬取得到的网页信息,将其分类为导航页面、主题相关页面、主题不相关页面、后续页面等类别,以此为基础建立了主题相关、主题不相关、后续页面等的判断模型。并以主题相关页面的发布时间序列(即导航页面的主题相关子链接产生的时间序列)为基础,建立导航页面变化的时间序列预测模型。本专利技术基于上述的页面分类集合,采用了“从正例和无标注数据中学习”的机器学习方法-偏置SVM建立了主题相关判断模型、主题不相关判断模型、后续页面本文档来自技高网
...

【技术保护点】
一种及时高效的互联网信息爬取方法,其步骤为:1)将设定信息源作为种子地址进行网页信息爬取并保存,确定所爬取网页所属网站及网站的导航页面;2)将确定出的每一网站导航页面作为一爬取对象进行多次爬取,并对其子页面爬取保存;3)将步骤2)所爬取的网页进行主题相关判断和标注,将爬取的每一网站的页面分别标注为:主题相关页面、主题不相关页面、后续页面;4)基于标注的页面集合及形成的无标注样本集合,建立每一网站的页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型及基于内容和链接的通用主题相关判断模型;根据每次爬取时网站导航页面的主题相关子页面的发布时间建立一导航页面变更时间序列,创建每一网站的导航页面变更时间序列预测模型;5)利用所述导航页面变更时间序列预测模型预测每一网站导航页面下一次变更时间,然后利用该变更时间预测值确定每一网站导航页面的下一爬取时间,爬取网站导航页面并提取其中未爬取过的子页面地址和锚文本;6)利用所建页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型和通用主题相关判断模型对上一步提取的子页面地址和锚文本进行判断:如果子页面属于后续页面类别,则继续进行爬取;如果子页面属于主题相关页面,则爬取保存;如果子页面属于主题不相关页面类别,则放弃;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,采用步骤5)方法确定每一网站导航页面下一爬取时间进行网页爬取。...

【技术特征摘要】
1.一种及时高效的互联网信息爬取方法,其步骤为: 1)将设定信息源作为种子地址进行网页信息爬取并保存,确定所爬取网页所属网站及网站的导航页面; 2)将确定出的每一网站导航页面作为一爬取对象进行多次爬取,并对其子页面爬取保存; 3)将步骤2)所爬取的网页进行主题相关判断和标注,将爬取的每一网站的页面分别标注为:主题相关页面、主 题不相关页面、后续页面; 4)基于标注的页面集合及形成的无标注样本集合,建立每一网站的页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型及基于内容和链接的通用主题相关判断模型;根据每次爬取时网站导航页面的主题相关子页面的发布时间建立一导航页面变更时间序列,创建每一网站的导航页面变更时间序列预测模型; 5)利用所述导航页面变更时间序列预测模型预测每一网站导航页面下一次变更时间,然后利用该变更时间预测值确定每一网站导航页面的下一爬取时间,爬取网站导航页面并提取其中未爬取过的子页面地址和锚文本; 6)利用所建页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型和通用主题相关判断模型对上一步提取的子页面地址和锚文本进行判断:如果子页面属于后续页面类别,则继续进行爬取;如果子页面属于主题相关页面,则爬取保存;如果子页面属于主题不相关页面类别,则放弃; 7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,采用步骤5)方法确定每一网站导航页面下一爬取时间进行网页爬取。2.如权利要求1所述的方法,其特征在于设定信息源的方法为:首先在通用搜索引擎上输入预定主题关键词,搜索得到一查询结果列表;然后从查询结果中提取地址作为所述设定信息源。3.如权利要求1或2所述的方法,其特征在于对每一所述爬取对象分配一网页信息爬取线程,并建立一目标地址及对应爬取线程的监控列表。4.如权利要求3所述的方法,其特征在于设定所述网页信息爬取线程的爬取时间间隔,在设定爬取时间范围内对所述爬取对象进行定期爬取。5.如权利要求1所述的方法,其特征在于将时间分为节假日、工作日两种类型,对每一种类型的时间分别划分两个时间段,从而将所述变更时间序列分为4种类型,对每一类型时间序列建立一导航页面变更时间序列预测模型。6.如权利要求1或5所述的方法,其特征在于利用所述导航页面变更时间序列预测模型预测每一网站导航页面下一次变更时间的方法为:导航页面的下一次变更时间Tnrart =当前变更时间Tmt+变更的时间段Tinteval ;其中,Tinterval= ^Tmtervali /N,N为设定的时间窗口 ITwi...

【专利技术属性】
技术研发人员:杨风雷黎建辉杨俊峰虞路清周园春
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1