一种面向用户生成内容的分布式采集方法与系统技术方案

技术编号:11661293 阅读:134 留言:0更新日期:2015-06-29 15:20
本发明专利技术提供一种面向用户生成内容的分布式采集方法,包括:1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务根据采集量和采集难度将多个同类型的采集页面划入;2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。本发明专利技术还提供了相应的分布式采集系统,包括主控节点和多个子节点,主控节点用于构建并维护采集任务队列;各个所述子节点用于并发地执行采集任务。本发明专利技术的采集速度快,显著地提高了UGC新闻采集的实时性;可以适用于各种不同类型页面的采集,执行多样化的采集任务;能够规避采集对象的监控措施。

【技术实现步骤摘要】

本专利技术涉及信息采集
,具体地说,本专利技术涉及一种面向用户生成内容的分布式采集方法与系统
技术介绍
用户生成内容简称为UGC(User Generated Content)。UGC新闻是在社会媒体(例如微博、博客、社交网络等)中用户们自发上传或分享的新闻事件信息。UGC内容由于其具有反应及时、传播快等特点,也成为传统媒体的一个主要信息来源。目前,随着互联网技术的深入人心和WEB2.0技术的蓬勃发展,普通用户成为互联网上的内容的主要生产者。然而,由于UGC新闻的门槛低,任何用户都可以向互联网上传内容,UGC新闻缺乏有效监管,其中存在着大量的虚假新闻。基于UGC的新闻认证预警是基于互联网中的海量数据进行分析并对新闻信息进行真实程度预警的自动化认证方案。其基础就是对海量数据的深度采集和结构化组织。由于新闻认证预警是一项实时性任务并且需要针对特定但多样的信息页面,因而对数据采集系统的高效性、复杂性和分析能力都有很高的要求。从国内外技术进展来看,一方面,已有的分布式采集方案并不注重效率,而是注重持续性和稳定性,因而已有的分布式采集方案并不能满足新闻认证预警对系统实时性的要求;另一方面,目前的采集任务需求集中于面向单一页面采集,每个子节点通常采集一个页面,这种方案不能满足新闻认证预警中特定但多样的页面采集需求。总之,新闻认证预警需要收集的UGC信息类型复杂、实时性要求高,目前还没有相应的数据解决方案。
技术实现思路
因此,本专利技术的任务是克服现有技术的不足,提供一种具有高实时性的UGC新闻分布式采集解决方案。本专利技术提供了一种面向用户生成内容的分布式采集方法,包括下列步骤:I)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务是根据采集量和采集难度将多个同类型的采集页面划入同一采集任务所形成的采集任务;2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。其中,所述步骤I)还包括:根据采集量和采集难度将部分采集任务进一步划分为多个子任务并将子任务加入所述采集队列;所述步骤2)还包括:并发地从所述采集任务队列取出所述子任务,执行该子任务并返回所采集的信息。其中,所述步骤I)中,所述采集难度包括页面对采集频率的限制,以及是否需要身份认证确定。本专利技术还提供了一种面向用户生成内容的分布式采集系统,包括采集集群,所述采集集群包括主控节点和多个子节点,所述主控节点用于构建并维护采集任务队列,根据所接收的采集页面的采集量和采集难度划分页面类型,然后基于页面类型构建采集任务并加入所述采集队列,其中采集任务包括所述复合采集任务;各个所述子节点用于并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。其中,所述主控节点还用于根据采集量和采集难度将所述采集任务队列中部分采集任务划分为多个子任务,所述子节点还用于并发地从所述采集任务队列取出所述子任务,执行该子任务并返回所采集的信息。其中,所述分布式采集系统还包括登陆管理模块,所述登陆管理模块用于管理并向各个所述子节点提供各常用新闻采集网站的登陆信息。其中,登录管理模块还用于维护可用账号池,完成账号的分配,回收,异常处理和新添;所述采集子节点还用于向登录管理模块申请可用账号,完成账号的模拟登录,将登录异常的账号和使用过程中出现异常的账号汇报给登录管理模块,向登录管理模块申请添加账号等功能。其中,其特征在于还包括反监控模块,所述反监控模块用于通过预设的采集策略来实现反监控,所述预设的采集策略包括:将任务分配至多个采集子节点上采集,单个采集子节点采用多个账号轮循采集,根据不同的采集页面设定相应的采集间隔和并发采集量中一项或多项。本专利技术还提供了一种基于前述的分布式采集系统的分布式采集方法,其特征在于,包括下列步骤:I)主控节点根据所接收的采集页面的采集量和采集难度划分页面类型,然后构建相应的米集任务;2)主控节点根据页面类型和采集难度,将所构建的采集任务加入任务队列,所述采集任务包括所述复合采集任务,主控节点还根据根据页面类型和采集难度将所构建的采集任务细分,将细分后的子任务加入任务队列;3)各子节点并发地从任务队列获取采集任务或者子任务,执行该采集任务后者子任务并返回所采集的信息。其中,所述步骤3)还包括:各子节点一旦空闲就去竞争获得分布式锁,如果获得分布式锁,则立即去任务队列取任务,任务完成后采集子节点将采集结果放入约定好的临时存储空间,并通知主控节点。其中,其特征在于还包括步骤:4)当同批次的子任务完成后,主控节点完成采集结果的合并;如果在约定时间内,所有同批次采集任务还未完全返回,采集主节点则丢弃返回的部分结果,对本次任务做超时处理。其中,所述步骤3)还包括,在子节点执行采集任务时,所述子节点还从所采集的页面中抽取出表征页面监控措施的状态信息,所述分布式采集系统根据所述表征页面监控措施的状态信息调整用于反监控的采集策略,所述用于反监控的采集策略包括:将任务分配至多个采集子节点上采集,单个采集子节点采用多个账号轮循采集,根据不同的采集页面设定相应的采集间隔和并发采集量中的一项或多项。与现有技术相比,本专利技术具有下列技术效果:1、本专利技术的采集速度快,显著地提高了 UGC新闻采集的实时性。2、本专利技术可以适用于各种不同类型页面的采集,可执行多样化的采集任务。3、对于采取了监控措施的采集对象,本专利技术能够进行规避并顺利完成相应的新闻米集任务。4、本专利技术可应用于多种对信息采集实时性要求较高的领域,例如新闻认证预警,多层次的舆情信息挖掘服务,以及热点事件分析服务等。【附图说明】以下,结合附图来详细说明本专利技术的实施例,其中:图1示出了本专利技术一个实施例的UGC新闻分布式采集系统的框架图。【具体实施方式】图1示出了本专利技术一个实施例的UGC新闻分布式采集系统的框架图,包括:线索预处理模块,采集实体选取模块,采集集群,存储管理模块,登陆管理模块以及反封堵管理模块。下面分别介绍这些模块。1、线索预处理模块线索预处理模块用于对采集线索进行预处理。采集线索包括新闻的简短描述或短语、新闻可能发生的起始时间、终止时间等。它包含各种新闻要素,但往往不适合直接作为后续数据处理的输入。所以线索预处理模块对采集线索进行分词、关键词提取、无效词过滤、语义实体识别等预处理,提取其中的新闻要素。这些新闻要素将为采集任务的分配和定向米集提供参考。2、采集实体选取模块采集实体选取模块用于根据输入的新闻要素得到相应的采集页面。该模块根据线索预处理的结果,获取相关关键词、相关新闻内容地址(例如与采集线索相关的微博、博客、社交网络等UGC新闻地址)、相关用户地址等信息构成采集目标候选集合。进一步地,还可以通过对目标候选集合中目标的重要性对各类采集目标(即采集实体)进行排序,选取排序前η个对象作为最终的采集目标,如关键微博、关键用户等当前第1页1 2 3 本文档来自技高网...
一种面向用户生成内容的分布式采集方法与系统

【技术保护点】
一种面向用户生成内容的分布式采集方法,包括下列步骤:1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务是根据采集量和采集难度将多个同类型的采集页面划入同一采集任务所形成的采集任务;2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:张勇东吴波曹娟郭俊波李锦涛
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1