网页搜集推荐方法和装置制造方法及图纸

技术编号:13306760 阅读:97 留言:0更新日期:2016-07-10 02:02
本发明专利技术实施例提供了网页搜集推荐方法和装置,所述方法包括:获取与关键词相关的多个种子网页;确定出种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐。利用本发明专利技术实施例,可以更加准确全面地为用户搜集和推荐网页,便于用户查找到需要的网页,可以提升用户的体验。

【技术实现步骤摘要】

本专利技术涉及网络数据采集
,具体而言,本专利技术涉及一种网页搜集推荐方法和装置
技术介绍
随着互联网的迅猛发展,网络上的信息量日益增多。用户通常利用搜索引擎在互联网中查找需要的网页信息。搜索引擎(SearchEngine)预先根据指定的策略、利用网络爬虫从互联网上抓取网页,接收到用户输入的关键词后,计算关键词与预先抓取的各网页之间的相关度,选择相关度较高的网页推荐并展示给用户。目前,网络爬虫主要包括传统爬虫和主题爬虫。一种利用传统爬虫的网页搜集推荐方法主要包括:抓取一个或若干个初始网页后,从初始网页开始,获得当前网页上的URL(UniformResourceLocator,统一资源定位器),根据获得的URL抓取网页;在抓取网页的过程中,不断从当前网页上抽取新的URL,根据新的URL继续抓取网页,直到满足预设的条件停止抓取网页,并存储已抓取到的网页;以在互联网上搜集尽可能多的网页推荐给用户。然而,利用上述方法搜集推荐的众多网页中,通常包含大量用户不需要的网页,例如噪声网页,网页搜集推荐的准确性较低、效率低下。导致用户需要从大量的网页中,人工筛选所需要的网页,造成用户获取其所需要的网页的效率低下,用户体验不佳。主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的网页。与传统爬虫不同,主题爬虫并不追求大的网页覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。一种利用主题爬虫的网页搜集推荐方法通常包括:根据用户输入的关键词,抓取一个或若干个网页作为主题的种子网页(或确定主题);抓取其它网页及其链接,根据指定的网页分析算法计算其它网页与种子网页(或主题)的相似度,过滤与种子网页(或主题)相似度较低的链接,保留与种子网页(或主题)相似度较高的链接并将其放入等待抓取的URL队列;然后,根据指定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到预设的条件,停止选择URL并抓取对应的网页进行存储,并将存储的网页推荐给用户。然而,利用主题爬虫的网页搜集推荐方法通常会出现遗漏用户需要的网页的问题,造成用户查找不全所需要的网页,降低了用户的体验。综上,现有的网页搜集推荐方法存在网页推荐准确性较低、效率低下、或者容易遗漏网页的缺陷。
技术实现思路
本专利技术针对现有的网页搜集方式的缺点,提出一种网页搜集推荐方法和装置,用以解决现有技术存在网页搜集推荐准确性较低、或效率低下,或者容易遗漏网页的问题,以提升网页推荐的准确性或效率,或降低遗漏网页的几率。本专利技术的实施例根据一个方面,提供了一种网页搜集推荐方法,包括:获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与所述语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐。本专利技术的实施例根据另一个方面,还提供了一种网页搜集推荐装置,包括:种子网页获取模块,用于获取与用户输入的关键词相关的多个网页作为多个种子网页;语义结构创建模块,用于根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;扩展网页处理模块,用于获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与所述语义结构之间的相似度;以及周期性地根据更新的种子网页更新扩展网页,直到达到预设的网页获取终止条件;种子网页更新模块,用于根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;以及周期性地根据进化的语义结构更新种子网页;语义结构进化模块,用于周期性地根据更新的种子网页进化语义结构;网页推荐模块,用于对最后一个周期更新的各种子网页进行排序和推荐。本专利技术实施例中,获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐;可以使得推荐的网页在语义上与用户输入的关键词具有较高的相关性,提升网页推荐的准确性和效率;并且语义结构实际上是包括了与关键词的语义相关的词语和/或短语,例如关键词的同义词或近义词,因此,利用本专利技术实施例可以搜集到不包含关键词但是包含其同义词或近义词的网页进行推荐,从而大大降低了遗漏网页的几率,便于用户查找到需要的网页,提升了用户的体验。而且,本专利技术实施例中,周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页。进而本专利技术实施例,可以逐步进化的语义结构,并逐步根据进化的语义结构更新种子网页;进一步提升最后一个周期更新的各种子网页与进化的语义结构之间的相似度,从而提升网页搜集推荐的准确性和效率,进一步降低网页遗漏的几率,便于用户查找到需要的网页,提升了用户的体验。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例的网页搜集推荐方法的流程示意图;图2为本专利技术实施例的语义结构的特例的示意图;图3为本专利技术实施例的网页搜集推荐装置的内部结构的框架示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、本文档来自技高网
...

【技术保护点】
一种网页搜集推荐方法,其特征在于,包括:获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与所述语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐。

【技术特征摘要】
1.一种网页搜集推荐方法,其特征在于,包括:
获取与用户输入的关键词相关的多个网页作为多个种子网页;
根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网
页的语义概念进行聚类,得到语义结构;
获取各种子网页所链接的多个网页作为多个扩展网页;
确定出每个扩展网页与所述语义结构之间的相似度;
根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;
周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结
构更新种子网页,直到达到预设的网页获取终止条件;
对最后一个周期更新的各种子网页进行排序和推荐。
2.根据权利要求1所述的方法,其特征在于,所述周期性地根据更新的种子网页进化语
义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,具体包括:
对于所述周期性中的一个周期,该周期内根据更新的种子网页进化语义结构并更新扩
展网页、以及根据进化的语义结构更新种子网页,包括:
对于上一个周期更新的每个种子网页,根据该种子网页中词语之间的出现关联度,确
定出该种子网页的语义概念后添加到上一个周期进化的语义结构中,得到本周期进化的语
义结构;
获取上一个周期更新的各种子网页所链接的多个网页,作为本周期更新的多个扩展网
页;
确定出本周期更新的每个扩展网页与所述本周期进化的语义结构之间的相似度;
根据相似度不低于第一相似度阈值的本周期更新的扩展网页,更新上一个周期更新的
种子网页,得到本周期更新的种子网页。
3.根据权利要求1所述的方法,其特征在于,所述根据种子网页中词语之间的出现关联
度,确定出该种子网页的语义概念,包括:
确定出每个种子网页的每个句子的词语集合;以及
对于该种子网页中每个句子的词语集合,计算出该词语集合中一对相邻词语的出现关
联度,并判断该出现关联度是否低于预设的出现关联度阈值;若否,则将该对相邻词语合并
为短语后,继续计算该短语与后续相邻词语的出现关联度,并继续判断该短语与后续相邻
词语的出现关联度是否低于所述出现关联度阈值,直到遍历该词语集合的所有词语,得到
该句子的语义概念;
将该种子网页中各句子的语义概念,组成该种子网页的语义概念。
4.根据权利要求1所述的方法,其特征在于,所述获取各种子网页所链接的多个网页之
前,还包括:
提取出各种子网页中的链接文本;
确定出每个链接文本的词语集合;
对于每个链接文本,根据该链接文本的词语集合,确定出该链接文本与所述语义结构
之间的相似度;以及
所述获取各种子网页所链接的多个网页,具体包括:
获取相似度不低于第二相似度阈值的链接文本所链接的网页。
5.根据权利要求1所述的方法,其特征在于,所述确定出每个扩展网页与所述语义结构
之间的相似度,包括:
对于每个扩展网页,分别计算出该扩展网页与所述语义结构中的各语义概念簇之间的
相似度;
根据计算出的各相似度,确定出该扩展网页与所述语义结构之间的相似度。
6.一种网页搜集推荐装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:刘耀龚幸伟
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1