一种面向主题的信息采集方法和系统技术方案

技术编号:2917676 阅读:240 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种面向主题的信息采集方法,包括下列步骤:1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1和2直至采集结束。上述方法极大的减小了对存储空间的需求;并且提高了面向主题信息采集的有效性。

【技术实现步骤摘要】

本专利技术涉及一种信息采集技术,具体的说,涉及一种面向主题的信息采集方法和系统
技术介绍
搜索引擎(Search Engine)的诞生,使得检索信息的能力获得了极大的提高。尽管搜索引擎得到了飞速的发展和广泛的应用,当前的搜索引擎仍然无法完全满足用户的需求,在检索结果的准确性、覆盖率、时效性等方面都还存在不足,搜索引擎依然面临巨大的技术挑战。通用搜索引擎为用户提供不限定主题、内容广泛的信息搜索服务,为了保证检索内容的覆盖率,搜索引擎希望能够索引尽可能多的内容。同时为了保证检索结果的时效性,需要尽可能减少索引库与数据源网站数据同步的延时。在通用搜索引擎面临上述难以解决的问题时,面向主题的搜索引擎(又称为垂直搜索引擎)受到人们越来越多的关注。如面向BBS、面向视频内容、面向科技文献等各种针对特定领域、特定主题、特定网站类型的搜索引擎。面向主题的搜索引擎只对特定网站或特定主题的网页进行索引,从信息采集的角度,面向主题的搜索引擎需要过滤与本主题无关的内容,从而减少了网页采集和分析的数据规模。面向主题的搜索引擎可以利用领域知识和特点,通过具有特色的采集调度和内容抽取技术,实现比通用搜索引擎获取网页更高的效率,并提高信息抽取的质量。现有技术中的面向主题的搜索引擎主要由网页采集、网页信息抽取、索引、检索等模块组成。其中网页采集抽取是搜索引擎的数据来源和基础。面向主题的网页采集方法的一般步骤分为:1)设定采集种子网页,并提取该网页中出现的新链接,作为待采集的网页;2)采集网页;3)对采集到的网页进行分析,判断网页是否与主题相关,并且提取出该网页中出现的新链接,作为待采集的网页。并重复步骤2。-->从降低网络带宽和磁盘存储需求的角度出发,一个优秀的面向主题的网络信息采集方法应该具有较高的采集有效性,即所采集页面中与主题相关的页面所占的比例要尽可能的高,这样可以极大的降低无关数据的采集量和存储量。
技术实现思路
本专利技术要解决的技术问题是提供一种面向主题的信息采集方法和系统,来提高面向主题的互联网信息采集的有效性。根据本专利技术的一个方面,提供了一种面向主题的信息采集方法,包括下列步骤:1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1)和2)直至采集结束。其中,所述步骤1)中的所述提取所述页面的相关链接集合包括下列步骤:11)根据所述页面内容,构建所述页面的DOM树;12)提取所述DOM树的极大并列子树族,由所述极大并列子树族的并列节点集合构成所述页面的相关链接集合。其中,所述步骤11)是利用开源工具HTML Parser完成。其中,所述步骤11)还包括:111)删除所述DOM树中的非链接型叶子节点。其中,所述步骤12)所述提取所述DOM树的极大并列子树族包括:A.置并列子树族集合置栈将所述DOM树的根节点root添加到栈中;B.如果则集合S即为所求集合,否则取出ST的栈顶元素p;C.如果p是一个叶子节点,返回步骤B;D.如果p只有一个儿子节点q,将q添加到栈ST当中,返回步骤B;E.判断T={Tree(childi(p))|i=1...cn(p)本文档来自技高网
...

【技术保护点】
一种面向主题的信息采集方法,包括下列步骤: 1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中; 2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1)和2)直至采集结束。

【技术特征摘要】
1.一种面向主题的信息采集方法,包括下列步骤:1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1)和2)直至采集结束。2.根据权利要求1所述的方法,其特征在于,所述步骤1)中的所述提取所述页面的相关链接集合包括下列步骤:11)根据所述页面内容,构建所述页面的DOM树;12)提取所述DOM树的极大并列子树族,由所述极大并列子...

【专利技术属性】
技术研发人员:李佳文张勇东郭俊波
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1