网页搜集推荐方法和装置制造方法及图纸

技术编号:13306760 阅读:105 留言:0更新日期:2016-07-10 02:02
本发明专利技术实施例提供了网页搜集推荐方法和装置,所述方法包括:获取与关键词相关的多个种子网页;确定出种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐。利用本发明专利技术实施例,可以更加准确全面地为用户搜集和推荐网页,便于用户查找到需要的网页,可以提升用户的体验。

【技术实现步骤摘要】

本专利技术涉及网络数据采集
,具体而言,本专利技术涉及一种网页搜集推荐方法和装置
技术介绍
随着互联网的迅猛发展,网络上的信息量日益增多。用户通常利用搜索引擎在互联网中查找需要的网页信息。搜索引擎(SearchEngine)预先根据指定的策略、利用网络爬虫从互联网上抓取网页,接收到用户输入的关键词后,计算关键词与预先抓取的各网页之间的相关度,选择相关度较高的网页推荐并展示给用户。目前,网络爬虫主要包括传统爬虫和主题爬虫。一种利用传统爬虫的网页搜集推荐方法主要包括:抓取一个或若干个初始网页后,从初始网页开始,获得当前网页上的URL(UniformResourceLocator,统一资源定位器),根据获得的URL抓取网页;在抓取网页的过程中,不断从当前网页上抽取新的URL,根据新的URL继续抓取网页,直到满足预设的条件停止抓取网页,并存储已抓取到的网页;以在互联网上搜集尽可能多的网页推荐给用户。然而,利用上述方法搜集推荐的众多网页中,通常包含大量用户不需要的网本文档来自技高网...

【技术保护点】
一种网页搜集推荐方法,其特征在于,包括:获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与所述语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐。

【技术特征摘要】
1.一种网页搜集推荐方法,其特征在于,包括:
获取与用户输入的关键词相关的多个网页作为多个种子网页;
根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网
页的语义概念进行聚类,得到语义结构;
获取各种子网页所链接的多个网页作为多个扩展网页;
确定出每个扩展网页与所述语义结构之间的相似度;
根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;
周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结
构更新种子网页,直到达到预设的网页获取终止条件;
对最后一个周期更新的各种子网页进行排序和推荐。
2.根据权利要求1所述的方法,其特征在于,所述周期性地根据更新的种子网页进化语
义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,具体包括:
对于所述周期性中的一个周期,该周期内根据更新的种子网页进化语义结构并更新扩
展网页、以及根据进化的语义结构更新种子网页,包括:
对于上一个周期更新的每个种子网页,根据该种子网页中词语之间的出现关联度,确
定出该种子网页的语义概念后添加到上一个周期进化的语义结构中,得到本周期进化的语
义结构;
获取上一个周期更新的各种子网页所链接的多个网页,作为本周期更新的多个扩展网
页;
确定出本周期更新的每个扩展网页与所述本周期进化的语义结构之间的相似度;
根据相似度不低于第一相似度阈值的本周期更新的扩展网页,更新上一个周期更新的
种子网页,得到本周期更新的种子网页。
3.根据权利要求1所述的方法,其特征在于,所述根据种子网页中词语之间的出现关联
度,确定出该种子网页的语义概念,包括:
确定出每个种子网页的每个句子的词语集合;以及
对于该种子网页中每个句子的词语集合,计算出该词语集合中一对相邻词语的出现关
联度,并判断该出现关联度是否低于预设的出现关联度阈值;若否,则将该对相邻词语合并
为短语后,继续计算该短语与后续相邻词语的出现关联度,并继续判断该短语与后续相邻
词语的出现关联度是否低于所述出现关联度阈值,直到遍历该词语集合的所有词语,得到
该句子的语义概念;
将该种子网页中各句子的语义概念,组成该种子网页的语义概念。
4.根据权利要求1所述的方法,其特征在于,所述获取各种子网页所链接的多个网页之
前,还包括:
提取出各种子网页中的链接文本;
确定出每个链接文本的词语集合;
对于每个链接文本,根据该链接文本的词语集合,确定出该链接文本与所述语义结构
之间的相似度;以及
所述获取各种子网页所链接的多个网页,具体包括:
获取相似度不低于第二相似度阈值的链接文本所链接的网页。
5.根据权利要求1所述的方法,其特征在于,所述确定出每个扩展网页与所述语义结构
之间的相似度,包括:
对于每个扩展网页,分别计算出该扩展网页与所述语义结构中的各语义概念簇之间的
相似度;
根据计算出的各相似度,确定出该扩展网页与所述语义结构之间的相似度。
6.一种网页搜集推荐装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:刘耀龚幸伟
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1