The present invention relates to an acquisition method and system based on an additional branch processing service, including acquisition task, which has multiple processing steps and branch numbers, sequentially executing the processing steps in the acquisition task, and judging whether or not to call the additional branch processing service according to the branch number before each processing step is executed, and if so, by calling the additional branch processing service. Branch processing services execute additional processing processes and replace the processing steps to be performed, otherwise they execute the processing steps to be executed. Thus, the invention adopts the technology of additional branches, and can deal with various complex situations of the source. In view of the situation that the additional branch is developed separately and easy to collapse, the service method is adopted to execute the additional branch, and the additional branch runner can restart automatically in the collapse, which can avoid the problem of the collector collapse caused by the collapse of the additional branch.
【技术实现步骤摘要】
一种基于附加分支处理服务的采集方法和系统
本专利技术涉及互联网信息获取领域,并特别涉及一种基于附加分支处理服务的采集方法和系统。
技术介绍
随着互联网的高速发展,出现了很多新闻、论坛和博客等特定的网站。这些网站经常是一种平台,它可以接受并且管理用户提交的内容,而且有很强的交互性,平台本身并不提供内容。比如西祠胡同、水木清华和新浪新闻。在无数用户的参与下,互联网变成一个公开的重要的信息源,包含着很多有价值的信息。出于各种需求,很多系统需要采集和抽取其中的信息,比如新闻的标题、正文和发布时间等。在实现时,这些系统中一般对特定通道的网站专门的采集器对其进行采集,如新闻采集器和论坛采集器。这种系统一般应用在搜索引擎、网络监管等多种领域。在采集过程中,经常发现在同一类网站(例如论坛)中,大多数论坛是有相同的采集流程,但实际上,有一些网站存在着不同的特征,导致采集方法不一样,系统对异常的网站的处理较差。现有技术对采集流程的每一步限制过严,导致系统只能处理满足其算法假设的信源,这是问题的原因所在。
技术实现思路
在本方法中,使用附加分支的方法处理异常问题。附加分支是指针对某个信源的 ...
【技术保护点】
1.一种基于附加分支处理服务的采集方法,其特征在于,包括:步骤1、获取采集任务,该采集任务具有标准处理步骤的标准分支号以及和该标准分支号对应的附加分支号;步骤2、根据标准分支号依次执行该采集任务中的标准处理步骤,并在每一个标准处理步骤执行前,根据该标准分支号对应的附加分支号判断是否调用该附加分支处理服务,若是,则通过调用该附加分支处理服务执行附加处理流程,并替代将要执行的标准处理步骤,否则执行将要执行的标准处理步骤。
【技术特征摘要】
1.一种基于附加分支处理服务的采集方法,其特征在于,包括:步骤1、获取采集任务,该采集任务具有标准处理步骤的标准分支号以及和该标准分支号对应的附加分支号;步骤2、根据标准分支号依次执行该采集任务中的标准处理步骤,并在每一个标准处理步骤执行前,根据该标准分支号对应的附加分支号判断是否调用该附加分支处理服务,若是,则通过调用该附加分支处理服务执行附加处理流程,并替代将要执行的标准处理步骤,否则执行将要执行的标准处理步骤。2.如权利要求1所述的基于附加分支处理服务的采集方法,其特征在于,该附加处理流程以处理模块的形式存于附加分支运行器中,该附加分支处理服务检测该附加分支运行器的运行状况,若发现该附加分支运行器在运行过程中发生崩溃,则自动重启该附加分支运行器。3.如权利要求2所述的基于附加分支处理服务的采集方法,其特征在于,该步骤2中通过调用该附加分支处理服务执行附加处理流程,具体包括:该附加分支处理服务将该附加分支号和输入数据转发给该附加分支运行器,附加分支运行器找到对应的处理模块,调用该处理模块对输入数据进行处理,并将结果返回,以继续执行该采集任务中的下一个标准处理步骤。4.如权利要求3所述的基于附加分支处理服务的采集方法,其特征在于,还包括:步骤3、管理员将新生成的处理模块,打包成动态库文件,将其存储在数据库中,该附加分支运行器根据预设周期同该数据库同步一次,以加载新的动态库文件。5.如权利要求4所述的基于附加分支处理服务的采集方法,其特征在于,还包括:该附加分支处理服务保存预设时间内产生的数据,以为该管理员提供监控界面,监控服务的运行状态。6.一种基于...
【专利技术属性】
技术研发人员:张凯,刘春阳,吴昱明,王鹏,钟习,张旭,刘悦,李雄,俞晓明,张翔宇,
申请(专利权)人:中国科学院计算技术研究所,国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。