【技术实现步骤摘要】
本专利技术涉及一种爬虫搜索方法及其系统,尤其涉及一种聚焦网络爬虫搜索方法及其系统。
技术介绍
当前,网络越来越成为人们获取信息的主要渠道,传统搜索引擎已经不能完全满足人们的需求。随着人工智能技术的进一步成熟和信息服务的多样化,搜索引擎技术正向智能化、个性化、领域化方向发展。垂直搜索引擎是面向特定领域的专业搜索引擎,旨在缩小搜索的总范围,从而获得更高的搜索精度,并提高搜索引擎对于网络资源的跟踪能力。作为垂直搜索引擎的核心部分,聚焦网络爬虫担任了从^ternet收集和更新信息的重要任务。与传统的广度优先的爬虫相比,主题爬虫最重要的特点就是采用了不同的优先级计算方法,有选择地爬行符合特定主题的网页。现有的大部分主题爬虫是采用基于向量空间模型VSM(Vector Space Model)和词步页-逆文档步页率 TF-IDF (Term Frequency-Inverse Document Frequency)或其改进算法来指导爬行。由于TF-IDF本质上是一种严格的字符串匹配算法,无法处理字符意义层面上的近似,因此很多文献都通过查询扩展来增加主题包含的关键词范围来解决“ ...
【技术保护点】
1.一种基于锚文本的聚焦网络爬虫搜索方法,其特征在于,该方法包括以下步骤:(1.1)网络爬虫下载器从URL优先级队列中获取URL,并依据URL从Internet下载Web页面;(1.2)使用URL解析器对下载的Web页面进行解析,提取出URL及其锚文本;(1.3)使用URL筛选器对提取出的URL及其锚文本进行筛选;(1.4)主题相关性判断器采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中;(1.5)重复执行步骤(1.1)到(1.4),直到达到停止条件为止。
【技术特征摘要】
【专利技术属性】
技术研发人员:郝红卫,台宪青,王艳军,殷绪成,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。