【技术实现步骤摘要】
本专利技术涉及网络数据采集
,具体而言,本专利技术涉及一种网页搜集推荐方法和装置。
技术介绍
随着互联网的迅猛发展,网络上的信息量日益增多。用户通常利用搜索引擎在互联网中查找需要的网页信息。搜索引擎(SearchEngine)预先根据指定的策略、利用网络爬虫从互联网上抓取网页,接收到用户输入的关键词后,计算关键词与预先抓取的各网页之间的相关度,选择相关度较高的网页推荐并展示给用户。目前,网络爬虫主要包括传统爬虫和主题爬虫。一种利用传统爬虫的网页搜集推荐方法主要包括:抓取一个或若干个初始网页后,从初始网页开始,获得当前网页上的URL(UniformResourceLocator,统一资源定位器),根据获得的URL抓取网页;在抓取网页的过程中,不断从当前网页上抽取新的URL,根据新的URL继续抓取网页,直到满足预设的条件停止抓取网页,并存储已抓取到的网页;以在互联网上搜集尽可能多的网页推荐给用户。然而,利用上述方法搜集推荐的众多网页中,通常包含大量用户不需要的网页,例如噪声网页,网页搜集推荐的准确性较低、效率低下。导致用户需要从大量的网页中,人工筛选所需要的网页,造成用户获取其所需要的网页的效率低下,用户体验不佳。主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的网页。与传统爬虫不同,主题爬虫并不追求大的网页覆盖,而将目标定为抓取与某一特 ...
【技术保护点】
一种网页搜集推荐方法,其特征在于,包括:获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与所述语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐。
【技术特征摘要】
1.一种网页搜集推荐方法,其特征在于,包括:
获取与用户输入的关键词相关的多个网页作为多个种子网页;
根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网
页的语义概念进行聚类,得到语义结构;
获取各种子网页所链接的多个网页作为多个扩展网页;
确定出每个扩展网页与所述语义结构之间的相似度;
根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;
周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结
构更新种子网页,直到达到预设的网页获取终止条件;
对最后一个周期更新的各种子网页进行排序和推荐。
2.根据权利要求1所述的方法,其特征在于,所述周期性地根据更新的种子网页进化语
义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,具体包括:
对于所述周期性中的一个周期,该周期内根据更新的种子网页进化语义结构并更新扩
展网页、以及根据进化的语义结构更新种子网页,包括:
对于上一个周期更新的每个种子网页,根据该种子网页中词语之间的出现关联度,确
定出该种子网页的语义概念后添加到上一个周期进化的语义结构中,得到本周期进化的语
义结构;
获取上一个周期更新的各种子网页所链接的多个网页,作为本周期更新的多个扩展网
页;
确定出本周期更新的每个扩展网页与所述本周期进化的语义结构之间的相似度;
根据相似度不低于第一相似度阈值的本周期更新的扩展网页,更新上一个周期更新的
种子网页,得到本周期更新的种子网页。
3.根据权利要求1所述的方法,其特征在于,所述根据种子网页中词语之间的出现关联
度,确定出该种子网页的语义概念,包括:
确定出每个种子网页的每个句子的词语集合;以及
对于该种子网页中每个句子的词语集合,计算出该词语集合中一对相邻词语的出现关
联度,并判断该出现关联度是否低于预设的出现关联度阈值;若否,则将该对相邻词语合并
为短语后,继续计算该短语与后续相邻词语的出现关联度,并继续判断该短语与后续相邻
词语的出现关联度是否低于所述出现关联度阈值,直到遍历该词语集合的所有词语,得到
该句子的语义概念;
将该种子网页中各句子的语义概念,组成该种子网页的语义概念。
4.根据权利要求1所述的方法,其特征在于,所述获取各种子网页所链接的多个网页之
前,还包括:
提取出各种子网页中的链接文本;
确定出每个链接文本的词语集合;
对于每个链接文本,根据该链接文本的词语集合,确定出该链接文本与所述语义结构
之间的相似度;以及
所述获取各种子网页所链接的多个网页,具体包括:
获取相似度不低于第二相似度阈值的链接文本所链接的网页。
5.根据权利要求1所述的方法,其特征在于,所述确定出每个扩展网页与所述语义结构
之间的相似度,包括:
对于每个扩展网页,分别计算出该扩展网页与所述语义结构中的各语义概念簇之间的
相似度;
根据计算出的各相似度,确定出该扩展网页与所述语义结构之间的相似度。
6.一种网页搜集推荐装置,其特征在于,包括:...
【专利技术属性】
技术研发人员:刘耀,龚幸伟,
申请(专利权)人:中国科学技术信息研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。