【技术实现步骤摘要】
一种基于搜索引擎的轻量级通用网页主题爬虫方法
本专利技术涉及信息检索领域,特别是涉及信息检索中的网页主题爬虫。
技术介绍
万维网上的海量信息不断地快速增长和更新,对这个海量信息库进行及时的收集一直是信息检索研究和应用的基础问题,Web爬虫正是解决该问题的经典技术。在很多时候,人们仅仅需要搜索特定领域或主题的Web网站,完成这项任务的爬虫技术即称为主题爬虫。不同领域都有大量的网站,对这些领域网站的自动爬取,是建立该领域的垂直搜索引擎以及特定领域数据挖掘和分析等应用的基础。虽然特定领域网站之间存在一定的链接关系,但是这也取决于网站的维护程度。如何全面、快速和精确地找到特定领域网站成了主题爬虫系统需要解决的主要问题。另外由于网站更名和合并等因素,使得领域网站的识别有了一定难度。爬虫系统需要从一些已给定的初始网站出发,尽可能多的通过链接寻找到新的网站,并且实现网站爬取的更新。目前的主题爬虫研究主要包括主题爬行算法和主题相似度计算算法。在主题爬行算法领域,不同于传统爬虫的宽度优先和深度优先搜索策略,主题爬虫为了效率,在此基础上发展出了多种多样的算法。主要分为三类,基于文字内 ...
【技术保护点】
一种基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,包括步骤为:步骤1、初始种子:给定的少量描述特定主题相关种子,然后根据主题扩充规则,对种子进行扩充,使得每一个种子被扩充为一系列种子;步骤2、发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站,并经过多层相关性过滤算法找到和查询词对应的网站;步骤3、下载网站:将相关的网站下载到本地并存入数据库;步骤4、网页解析:从下载的网站进行分析,获取其中的链接信息,对相关性符合的链接,进一步判断其指向网站是否和主题相关,如果相关,则将该链接存为一个待爬取URL;步骤5、种子更新:通过分析已爬取到的新网站,从中提取主 ...
【技术特征摘要】
1.一种基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,包括步骤为:步骤1、初始种子:给定的少量描述特定主题相关种子,然后根据主题扩充规则,对种子进行扩充,使得每一个种子被扩充为一系列种子;步骤1中所述初始种子需要人工提供使得爬取持续进行的主题相关词汇,一般而言,特定领域的用户都熟悉本领域内的典型词汇,因此这种提出初始种子的过程较为可行;步骤2、发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站,并经过多层相关性过滤算法找到和查询词对应的网站;步骤2中将传统繁重的爬虫寻找相关网站的难题转化为简单的搜索查询任务,即利用目前成熟的搜索引擎查询API,准确定位和查询词相关的候选网站集合,这极大避免了主题爬虫中漫无目遍历网页的过程,简化了爬虫整体设计;所述步骤2中提及的相关性过滤算法是一种新型的基于向量空间模型的相关网站三层主题过滤方法:首先,根据网站URL链接字符串、简称和全称进行初步的主题过滤;其次,进一步利用搜集的领域典型网站的URL构成的向量进一步进行过滤;最后,提取网站主页的关键词,并与领域背景知识进行向量相关度计算,判断网站是否是属于特定主题;通过以上三层主题过滤,能有效地过滤掉偏离主题的网站,减少需要爬取和分析的网页数量;步骤3、下载网站:将相关的网站下载到本地并存入数据库;步骤4、网页解析:从下载...
【专利技术属性】
技术研发人员:姚瑞波,周凤波,翁强,
申请(专利权)人:焦点科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。