一种及时高效的互联网信息爬取方法技术

技术编号：8862339 阅读：255 留言：0更新日期：2013-06-28 01:33

本发明专利技术公开了一种及时高效的互联网信息爬取方法，属于信息技术领域。本方法为：1)设定种子地址，爬取保存网页信息并确定导航页面；2)对每一导航页面进行多次爬取，并对爬取的网页进行分析标注；4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型；5)预测每一网站导航页面下一次变更时间，确定下一爬取时间，爬取导航页面并提取未爬取过的子页面地址和锚文本；6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断，并据判断结果分别处理；7)基于新爬取的主题相关页面，形成或更新每一网站导航页面的当前变更时间序列，确定下一爬取时间进行网页爬取。本发明专利技术能在较小负载下，保证所采集信息的新颖性和主题性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息
，尤其涉及。
技术介绍
随着互联网的快速发展，它已经变成了世界上规模最大的公共数据源，而且其规模还正在不停的增长着。从其中包含的内容看，互联网上存在众多的通过超链接方式链接在一起的网页信息，并且其中相当大的一部分具有动态变化的特点；以此为基础，互联网上可以提供众多的服务，而且通过人、组织等之间的交流形成了一个和真实社会有一定对应、关联关系的虚拟社会。为此，以从互联网的结构、内容、日志等之中探寻有用知识为目标的Web数据挖掘得到了很大的关注和发展，以互联网上的内容作为挖掘对象的内容挖掘尤其如此。以这些挖掘工作为基础的应用也得到了广泛的关注，服务于多种目的的互联网信息监控、信息预警等即是这样的应用。为进行互联网上的内容挖掘和执行特定的信息监控、预警等应用，首先需要采用一定的技术采集符合要求的互联网内容，这一般需要通过基于有限范围爬取、垂直爬取或主题爬取等技术的互联网信息爬虫(Crawler)系统完成。很明显，信息监控、预警等应用对采集的信息有着特定的不同于一般搜索引擎的需求，其中两个最重要需求是:(I)信息的主题相关性，即所采集的信息应符合预期的主题需要，或者说采集的信息在内容上和预定话题或者主题应该是相关的；(2)信息的新颖性，即要保证目标网站所出现的新信息能在第一时间得到。关于信息的主题性问题，考虑到互联网上的信息超大规模，为支持特定的信息监控等应用，对互联网上的所有信息进行完全采集是不现实的，也是无意义的。对此，可以采用主题聚焦技术对互联网上的信息进行分类，对相关内容进行快速采集，而对不相关内容则采取抛弃措施。为了判断页面是否...

【技术保护点】
一种及时高效的互联网信息爬取方法，其步骤为：1)将设定信息源作为种子地址进行网页信息爬取并保存，确定所爬取网页所属网站及网站的导航页面；2)将确定出的每一网站导航页面作为一爬取对象进行多次爬取，并对其子页面爬取保存；3)将步骤2)所爬取的网页进行主题相关判断和标注，将爬取的每一网站的页面分别标注为：主题相关页面、主题不相关页面、后续页面；4)基于标注的页面集合及形成的无标注样本集合，建立每一网站的页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型及基于内容和链接的通用主题相关判断模型；根据每次爬取时网站导航页面的主题相关子页面的发布时间建立一导航页面变更时间序列，创建每一网站的导航页面变更时间序列预测模型；5)利用所述导航页面变更时间序列预测模型预测每一网站导航页面下一次变更时间，然后利用该变更时间预测值确定每一网站导航页面的下一爬取时间，爬取网站导航页面并提取其中未爬取过的子页面地址和锚文本；6)利用所建页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型和通用主题相关判断模型对上一步提取的子页面地址和锚文本进行判断：如果子页面属于后续页面类别，则继续进行爬取；...

【技术特征摘要】
1.一种及时高效的互联网信息爬取方法，其步骤为: 1)将设定信息源作为种子地址进行网页信息爬取并保存，确定所爬取网页所属网站及网站的导航页面； 2)将确定出的每一网站导航页面作为一爬取对象进行多次爬取，并对其子页面爬取保存； 3)将步骤2)所爬取的网页进行主题相关判断和标注，将爬取的每一网站的页面分别标注为:主题相关页面、主题不相关页面、后续页面； 4)基于标注的页面集合及形成的无标注样本集合，建立每一网站的页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型及基于内容和链接的通用主题相关判断模型；根据每次爬取时网站导航页面的主题相关子页面的发布时间建立一导航页面变更时间序列，创建每一网站的导航页面变更时间序列预测模型； 5)利用所述导航页面变更时间序列预测模型预测每一网站导航页面下一次变更时间，然后利用该变更时间预测值确定每一网站导航页面的下一爬取时间，爬取网站导航页面并提取其中未爬取过的子页面地址和锚文本； 6)利用所建页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型和通用主题相关判断模型对上一步提取的子页面地址和锚文本进行判断:如果子页面属于后续页面类别，则继续进行爬取；如果子页面属于主题相关页面，则爬取保存；如果子页面属于主题不相关页面类别，则放弃； 7)基于新爬取的主题相关页面，形成或更新每一网站导航页面的当前变更时间序列，采用步骤5)方法确定每一网站导航页面下一爬取时间进行网页爬取。2.如权利要求1所述的方法，其特征在于设定信息源的方法为:首先在通用搜索引擎上输入预定主题关键词，搜索得到一查询结果列表；然后从查询结果中提取地址作为所述设定信息源。3.如权利要求1或2所述的方法，其特征在于对每一所述爬取对象分配一网页信息爬取线程，并建立一目标地址及对应爬取线程的监控列表。4.如权利要求3所述的方法，其特征在于设定所述网页信息爬取线程的爬取时间间隔，在设定爬取时间范围内对所述爬取对象进行定期爬取。5.如权利要求1所述的方法，其特征在于将时间分为节假日、工作日两种类型，对每一种类型的时间分别划分两个时间段，从而将所述变更时间序列分为4种类型，对每一类型时间序列建立一导航页面变更时间序列预测模型。6.如权利要求1或5所述的方法，其特征在于利用所述导航页面变更时间序列预测模型预测每一网站导航页面下一次变更时间的方法为:导航页面的下一次变更时间Tnrart =当前变更时间Tmt+变更的时间段Tinteval ;其中，Tinterval= ^Tmtervali /N，N为设定的时间窗口 ITwi...

【专利技术属性】
技术研发人员：杨风雷，黎建辉，杨俊峰，虞路清，周园春，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人