一种信息收集方法和系统技术方案

技术编号:5077266 阅读:292 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种信息收集方法和系统,上述方法包括:获取特定场所信息和事件信息;根据上述特定场所信息和事件信息,获取候选网站;下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。本发明专利技术降低了相关网站的网页之间可能存在大量冗余信息,使网络负载量减小。

【技术实现步骤摘要】

本专利技术涉及互联网领域,尤其涉及一种基于特定场所和事件的网站收集方法和系 统。
技术介绍
随着互联网的快速发展和信息需求的变化,适用于所有用户的综合性的通用搜索 引擎已经不能满足用户对某个领域和面向特定主题的查询需求。面向主题的信息服务的目 的是提供分类精确、数据全面、更新及时的搜索服务,这就对搜索引擎中负责收集网页的网 络爬虫提出了新的要求,主题爬虫随之应运而生。主题爬虫抓取的内容只限于特定的主题 或专门领域,在抓取的过程中无须对整个网络进行遍历,只需选择与主题相关的页面进行 访问。主题爬虫考虑了页面与主题的相关性,但忽略了网页之间的冗余性。在特定的时间,某些特定公共场所里聚集的人群很可能具有相似的兴趣爱好,而 给特定的地方的人发送短信息是个成熟的技术,所以这是可以分众投放广告的一个机会。 例如某天在某个体育馆举办某个流行歌手的演唱会,来观看演出的人中应该有一大批对流 行音乐比较感兴趣,比较时尚,若对这批人投放时尚音乐手机的广告是个不错的选择。所以 如何预先收集到某些特定公共场所的演出、比赛、其它活动的信息对有目标的广告投放应 该是很有价值的。这可以归结为一个基于特定场所的事件信息获取问题。对于某个特定场所而言,事件检索的目的是找到所有与这个场所相关的网页,而 目前的WEB (网络)搜索引擎一般较多相关性而较少考虑查全性。若直接用场所名称到WEB 上检索,一方面得到的网页往往会出现成百上千,相互之间既有很多相似乃至冗余的地方, 逐一进行事件抽取既浪费时间也没有必要;另一方面特定场所的名称往往并不是唯一的, 有些包含事件的网页可能用单一的名称无法检索到。采用根据场所名称来生成查询和进行 扩展的方法来检索包含事件信息的网页也行不通,因为根据场所名称或场所名称+时间的 方法在WEB搜索引擎中基本无法在前几页返回我们需要的网页。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题现有技术存在 一种基于URL⑴niform Resource Locator,统一资源定位符)模式的重抓取主题爬虫,通过 一组种子URL,收集一些相关和不相关的网页,并以此总结出相关和不相关的URL模式,在 以后的网页抓取中根据这些相关和不相关的URL模式来进行导航,但其收集的相关网站的 网页信息可能存在大量冗余信息,造成网络负载量大。
技术实现思路
本专利技术实施例提供一种信息收集方法和系统,从而降低相关网站的网页之间可能 存在大量冗余信息。—方面,本专利技术实施例提供了一种信息收集方法,上述方法包括获取特定场所信 息和事件信息;根据上述特定场所信息和事件信息,获取候选网站;下载上述候选网站的 网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模 式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;从 上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;根据上述大于或等 于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。另一方面,本专利技术实施例提供了一种信息收集系统,上述系统包括网站扩充子系 统,用于获取特定场所信息和事件信息,并根据上述特定场所信息和事件信息,获取候选网 站;URL模式学习子系统,用于下载上述候选网站的网页;利用上述事件信息对上述候选网 站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL 模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过 滤,获取匹配上述候选URL模式的候选网页集合;URL模式选取子系统,用于从上述候选网 页集合中,获取大于或等于预置覆盖频率阈值的URL模式,并根据上述大于或等于预置覆 盖频率阈值的URL模式获取上述URL模式所属的网站信息。上述技术方案具有如下有益效果因为首先利用种子网站扩充网站规模,进而根 据网页相似性学习URL模式,最后进行URL模式选择的网站信息收集的技术手段,从而降低 相关网站的网页之间可能存在大量冗余信息,从而使网络负载量减小。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。图1是本专利技术实施例一种基于特定场所和事件的信息收集方法流程图;图2为本专利技术实施例一种基于特定场所和事件的信息收集系统结构示意图;图3为本专利技术实施例候选网站存储单元存储选取的网站的ID以及URL列表示意 图;图4为本专利技术实施例初始网页存储单元,过滤网页存储单元和选取网页存储单元 都存储网页内容及其URL列表示意图;图5为本专利技术实施例URL模式存储单元存储URL模式及其ID列表示意图;图6为本专利技术实施例事件信息库存储事件的ID、要素及其所在网页的URL列表示 意图;图7为本专利技术实施例URL模式-事件映射表的存储方式列表示意图;图8为本专利技术实施例给出的获取的URL模式集合的例子列表示意图;图9为本专利技术实施例两个相关URL模式列表示意图;图10为本专利技术实施例对应于图2所述信息收集系统中各个功能单元工作次序示 意图;图11为本专利技术实施例网页收集中各个功能单元工作次序示意图。 具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完5整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。本专利技术实施例的输入为特定场所名集合和种子事件集合,输出为URL模式导航器 和根据导航器抓取的网页集合。所谓URL模式指的是URL的正则表达式,用于表示一类URL, 如 URL "www. hotticket. cn/content, asp ? id = 4621,,禾口 "www. hotticket. cn/content, asp ? id = 2312” 等都可以用模式"www. hotticket. cn/content. asp id=”表示。所 谓URL模式导航器指的是URL模式的层次结构,用于表示一个网站所有相关链接爬取路径。实施例一如图1所示,为本专利技术实施例一种基于特定场所和事件的信息收集方法流程图, 上述方法包括101,获取特定场所信息和事件信息。102,根据上述特定场所信息和事件信息,获取候选网站。可选的,根据上述特定场所信息和事件信息,可以通过网站扩充策略获取候选网 站。上述根据上述特定场所信息和事件信息,通过网站扩充策略获取候选网站可以包括根 据上述事件信息的事件要素和/或时间生成查询关键字,提交到WEB搜索引擎,在上述TOB 搜索引擎返回结果的URL列表中,选择出现频数大于或者等于预置阈值的部分网站作为候 选网站。103,下载上述候选网站的网页。可选的,可以利用网络爬虫爬取上述候选网站中的网页内容,下载上述候选网站 的全部网页。104,利用上述事件信息对上述候选网站的网页进行过滤,本文档来自技高网
...

【技术保护点】
一种信息收集方法,其特征在于,所述方法包括:获取特定场所信息和事件信息;根据所述特定场所信息和事件信息,获取候选网站;下载所述候选网站的网页;利用所述事件信息对所述候选网站的网页进行过滤,获取包含所述事件信息的网页;对包含所述事件信息的网页进行统一资源定位符URL模式学习,获取候选URL模式;利用所述候选URL模式,对所述候选网站的网页再次进行过滤,获取匹配所述候选URL模式的候选网页集合;从所述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;根据所述大于或等于预置覆盖频率阈值的URL模式获取所述URL模式所属的网站信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:周雅倩姜孟晋何一鸣谭卫国
申请(专利权)人:华为技术有限公司复旦大学
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1