一种论坛回帖增量采集方法及系统技术方案

技术编号:7525016 阅读:259 留言:0更新日期:2012-07-12 05:48
本发明专利技术公开了一种论坛回帖增量采集方法及系统,属于网络信息采集技术领域。本发明专利技术所述方法周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子;如果存在,则从所述新增帖子中提取出主贴和回帖信息,从所述具有新回帖的帖子中提取出新回帖信息。本发明专利技术所述系统包括用于周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置(11);以及用于从新增帖子中提取出主贴和回帖信息,从具有新回帖的帖子中提取出新回帖信息的提取装置(12)。本发明专利技术能够快速、准确、完整地采集一篇帖子的所有主、回帖信息,从而解决了现有搜索引擎在搜索帖子的翻页回帖信息时存在漏搜或搜索不到的问题。

【技术实现步骤摘要】

本专利技术属于网络信息采集
,具体涉及ー种论坛回帖增量采集方法及系统
技术介绍
随着互联网的出现,尤其网络论坛、网络社区的广泛开设,使得全世界范围的人群都可以在一起自由地发表、交流各种观点。中国的网络论坛达到一百多万个,并且80%的网站拥有独立的论坛,经常浏览网络论坛的人数已经过亿。不同于其他的形式,网络论坛具有速度快、范围广的特点。ー个受人瞩目的话题可能在很短的时间内达到上万名网民的回帖讨论,回帖信息达到成百上千页。此时,用户不仅仅想查看话题的发起者的言论即主帖的内容,更想看到其他网民对该话题所发表的言论。然而,通过一般的搜索引擎很难查询到翻页的回帖信息,即使有时能够查询到,在时效性上也很不理想,数据延迟较大。现有的论坛采集系统也只是采集帖子的首页信息,而不采集帖子的回帖信息。
技术实现思路
针对现有技术中存在的缺陷,本专利技术所要解决的技术问题是提供一种论坛回帖增量采集方法及系统,该方法及系统能够快速、准确、完整地采集ー篇帖子的所有主/回帖信息,克服了现有搜索引擎在搜索帖子的翻页回帖信息时存在漏搜或者搜索不到的缺陷,以及现有论坛采集系统只采集帖子的首页信息而不采集回帖信息的缺陷。为解决上述技术问题,本专利技术采用的技术方案如下一种论坛回帖增量采集方法,包括以下步骤(1)根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和/或具有新回帖的帖子;(2)如果存在新增帖子,则从新增帖子中提取出主贴和回帖信息;如果存在具有新回帖的帖子,则计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。一种论坛回帖增量采集系统,包括用于根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置;用于对新增帖子,从新增帖子中提取出主贴和回帖信息;对具有新回帖的帖子,计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息的提取装置。本专利技术所述的方法及系统,通过周期性监控列表页的方式,能够及时获取列表页中的新增回帖和具有新回帖的帖子信息;通过URL标识和回复数信息进行快速消重处理, 避免重复采集;通过区分不同的翻页链接提取方式达到快速进行翻页回帖采集的目的;从而能够快速、准确、完整地采集ー篇帖子的所有主/回帖信息。回帖的漏采率在5%以下,实时性可达分钟级。 附图说明图1是具体实施方式中论坛回帖增量采集系统的结构框图;图2是具体实施方式中论坛回帖增量采集方法的流程图;图3是具体实施方式中判断列表页中是否存在新增帖子和具有新回帖的帖子的方法流程图;图4是具体实施方式中从新增帖子中提取出主贴和回帖信息,从具有新回帖的帖子中提取出新回帖信息的方法流程图。具体实施例方式下面结合附图及具体实施方式对本专利技术进行进一步的说明。如图1所示,本实施方式中论坛回帖增量采集系统包括判断装置11,与判断装置 11连接的提取装置12。其中,判断装置11包括第一队列单元111、第一获取单元112、列表页提取単元113和判断単元114。提取装置12包括第二队列单元121、扫描单元122、第二获取单元123、内容页提取単元IM和消重単元125。判断装置11用于根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子。其中,第一队列单元111用于将所有需要采集的论坛列表页URL添加到列表页采集队列。第一获取单元112用于从列表页采集队列中取出每个列表页URL。列表页提取単元113用于对取出的每个列表页URL,获取该列表页URL对应的网页内容,从所述网页内容中提取出每个帖子首页URL和当前回复数。 判断単元113用于根据帖子首页URL判断每个帖子在已采集帖子信息表中是否存在;如果存在,则继续判断该帖子当前回复数是否大于已采集帖子信息表中记录的本次回复数,如果大于,则该帖子有新回帖,更新已采集帖子信息表中该帖子的上次回复数和本次回复数; 如果该帖子在已采集帖子信息表中不存在,则该帖子为新增帖子,将该帖子首页URL和当前回复数添加到已采集帖子信息表中。提取装置12用于对新增帖子,从新增帖子中提取出主贴和回帖信息;对具有新回帖的帖子,计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。其中,第二队列单元121用于将新增帖子的首页URL和具有新回帖的帖子URL添加到内容页采集队列。扫描单元122用于定时扫描内容页采集队列。第二获取单元123用于从内容页采集队列中取出每个URL。内容页提取単元IM用于获取URL 对应的网页内容,并从所述网页内容中提取主贴和/或回帖和/或翻页URL。消重単元125 用于对论坛翻页方式为下ー页翻页方式时从网页内容中提取的翻页URL进行消重处理。第 ニ队列单元121还用于将消重后的翻页URL添加到内容页采集队列。如图2所示,本实施方式中基于图1所示系统的论坛回帖增量采集方法的流程,包括以下步骤(1)判断装置11周期性判断所有需要采集的论坛列表页中是否存在新增帖子和/ 或具有新回帖的帖子。如图3所示,本实施方式中采用的判断方法包括以下步骤7(a)第一队列单元111将所有需要采集的论坛列表页URL添加到列表页采集队列。 所述列表页是指论坛中包含所有帖子标题、URL(统ー资源定位符)、点击数、回复数等信息的列表页面,不包括帖子的具体内容。如搜狐论坛的财经大杂烩频道的列表页,其URL如下http://cluo. business, sohu. com/l-enjoy-0-0-0-0. html。再如人民网强国社区的国际论坛频道的列表页,其URL如下http://bbsl.people.com.cn/boardList.do ? action = postList&boardld = 6。本实施方式中,对每个需要采集的论坛列表页均设定采集时间间隔,如每隔5分钟采集一次;监控每个列表页的采集时间间隔;当某个列表页达到采集时间间隔吋,便将该列表页URL添加到列表页采集队列。优选的,刷新间隔根据论坛的更新频率动态调整;论坛的更新频率越快,刷新间隔越短;论坛的更新频率越慢,则刷新间隔越长。如预先设定每隔5分钟采集一次,在后续采集过程中,如果发现论坛更新频率增加,则将刷新间隔缩短为3分钟,进而缩短为1分钟或更短。论坛的更新频率的计算方法可參见中国专利申请“ー种网页数据信息的定向采集方法及装置”(申请号201010236363. 7),此处不再赘述。(b)第一获取单元112从列表页采集队列中取出每个列表页URL。本实施方式中,从列表页采集队列中取出列表页URL采用的方法为定时扫描列表页采集队列(扫描间隔时间可由用户根据具体应用情况设置),如果列表页采集队列不空,则按照先进先出順序依次从列表页采集队列中取出列表页URL(从队列中取出URL后, 该URL便会自动从队列中删除),并且满足该列表页URL所属网站的友好访问条件。如果某列表页URL不满足该列表页URL所属网站的友好访问条件,则在本次扫描中忽略该列表页 URL,继续判断下ー个列表页URL,该列表页URL留待后续扫描中处理。网站的友好反问条件包本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:吴新丽杨建武
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术