一种信息收集方法和系统技术方案

技术编号：5077266 阅读：292 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种信息收集方法和系统，上述方法包括：获取特定场所信息和事件信息；根据上述特定场所信息和事件信息，获取候选网站；下载上述候选网站的网页；利用上述事件信息对上述候选网站的网页进行过滤，获取包含上述事件信息的网页；对包含上述事件信息的网页进行ＵＲＬ模式学习，获取候选ＵＲＬ模式；利用上述候选ＵＲＬ模式，对上述候选网站的网页再次进行过滤，获取匹配上述候选ＵＲＬ模式的候选网页集合；从上述候选网页集合中，获取大于或等于预置覆盖频率阈值的ＵＲＬ模式；根据上述大于或等于预置覆盖频率阈值的ＵＲＬ模式获取上述ＵＲＬ模式所属的网站信息。本发明专利技术降低了相关网站的网页之间可能存在大量冗余信息，使网络负载量减小。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网领域，尤其涉及一种基于特定场所和事件的网站收集方法和系统。
技术介绍
随着互联网的快速发展和信息需求的变化，适用于所有用户的综合性的通用搜索引擎已经不能满足用户对某个领域和面向特定主题的查询需求。面向主题的信息服务的目的是提供分类精确、数据全面、更新及时的搜索服务，这就对搜索引擎中负责收集网页的网络爬虫提出了新的要求，主题爬虫随之应运而生。主题爬虫抓取的内容只限于特定的主题或专门领域，在抓取的过程中无须对整个网络进行遍历，只需选择与主题相关的页面进行访问。主题爬虫考虑了页面与主题的相关性，但忽略了网页之间的冗余性。在特定的时间，某些特定公共场所里聚集的人群很可能具有相似的兴趣爱好，而给特定的地方的人发送短信息是个成熟的技术，所以这是可以分众投放广告的一个机会。例如某天在某个体育馆举办某个流行歌手的演唱会，来观看演出的人中应该有一大批对流行音乐比较感兴趣，比较时尚，若对这批人投放时尚音乐手机的广告是个不错的选择。所以如何预先收集到某些特定公共场所的演出、比赛、其它活动的信息对有目标的广告投放应该是很有价值的。这可以归结为一个基于特定场所的事件信息获取问题。对于某个特定场所而言，事件检索的目的是找到所有与这个场所相关的网页，而目前的WEB (网络)搜索引擎一般较多相关性而较少考虑查全性。若直接用场所名称到WEB 上检索，一方面得到的网页往往会出现成百上千，相互之间既有很多相似乃至冗余的地方，逐一进行事件抽取既浪费时间也没有必要；另一方面特定场所的名称往往并不是唯一的，有些包含事件的网页可能用单一的名称无法检索到...

【技术保护点】
一种信息收集方法，其特征在于，所述方法包括：获取特定场所信息和事件信息；根据所述特定场所信息和事件信息，获取候选网站；下载所述候选网站的网页；利用所述事件信息对所述候选网站的网页进行过滤，获取包含所述事件信息的网页；对包含所述事件信息的网页进行统一资源定位符ＵＲＬ模式学习，获取候选ＵＲＬ模式；利用所述候选ＵＲＬ模式，对所述候选网站的网页再次进行过滤，获取匹配所述候选ＵＲＬ模式的候选网页集合；从所述候选网页集合中，获取大于或等于预置覆盖频率阈值的ＵＲＬ模式；根据所述大于或等于预置覆盖频率阈值的ＵＲＬ模式获取所述ＵＲＬ模式所属的网站信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：周雅倩，姜孟晋，何一鸣，谭卫国，
申请(专利权)人：华为技术有限公司，复旦大学，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人