【技术实现步骤摘要】
本专利技术涉及网络数据采集系统,尤其涉及一种同话题定位跟踪式论坛爬虫系统。
技术介绍
随着电脑技术的发展普及和互联网的迅速崛起,人们渐渐从传统的交流沟通形式中抽身而出,利用大量的时间和精力投入到新兴的交流沟通形式-------论坛中。论坛是电脑和互联网的产物,它具有着很多优点,如实时性,广泛性等等。正是这些显著的优点使得人们在论坛上各抒己见,讨论热点问题,交流技术和心得等等。因而论坛上有许多十分重要的信息,这些信息通常难以在论坛以外的地方获得。由于论坛与其他网站显著不同的组织结构方式,如每个话题的强烈的连续性和每个用户信息的网页重复展示性等等,加之巨大的访问量和巨大的广告投放量,使得论坛在拥有独到巨大重要信息的同时还受到巨大冗余信息的困扰。在当今这个讲究效率的时代,人们不可能有时间去一页一页翻找关于这个热点话题的有用的信息,因而人们就理所当然的将目光投向一般的搜索引擎,以期望能够利用它有效高质量地便捷检索到需要的信息。但是因特网上的一般搜索引擎对于检索普通结构的网站,典型的如门户网站的能力较强但检索论坛这种特殊结构的网站的能力很弱。即使一些一般搜索引擎能够实现检 ...
【技术保护点】
一种同话题定位跟踪式论坛爬虫系统,其特征在于包括: 非文本粗略过滤器,用于提取网页中的所有超链接; 非文本精确过滤器,用于过滤去除所有指向不是文本信息的超链接; 超链接补全器,用于修正并且补完整超链接; 纯网页超链接存储库,用于保存网页中所有指向纯文本信息的超链接; 同话题定位跟踪器,用于定位并且跟踪一系列同一话题的网页组; 同话题网页超链接存储库,用于存储在所述同话题定位跟踪器中被定位并且跟踪一系列同一话题的网页组的超链接; 网页组数据下载器,用于保存在所述同话题网页超链接存储库中被超链接指向的网页组; 统一编号器,用于为在所述网页组数据下载器中保存的网页组数据进行统一分 ...
【技术特征摘要】
1.一种同话题定位跟踪式论坛爬虫系统,其特征在于包括:非文本粗略过滤器,用于提取网页中的所有超链接;非文本精确过滤器,用于过滤去除所有指向不是文本信息的超链接;超链接补全器,用于修正并且补完整超链接;纯网页超链接存储库,用于保存网页中所有指向纯文本信息的超链接;同话题定位跟踪器,用于定位并且跟踪一系列同一话题的网页组;同话题网页超链接存储库,用于存储在所述同话题定位跟踪器中被定位并且跟踪一系列同一话题的网页组的超链接;网页组数据下载器,用于保存在所述同话题网页超链接存储库中被超链...
【专利技术属性】
技术研发人员:杨溥,郭军,徐蔚然,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。