【技术实现步骤摘要】
一种可视化数据收集代码编写与调试方法
[0001]本专利技术属于数据采集
,具体是一种可视化数据收集代码编写与调试方法。
技术介绍
[0002]当前在数据收集配置的流程中,由于需要收集的目标url种类多达上千种。每一种url进行代码调试需要消耗大量的人力。数据收集发布之后,生成的队列,需要调度手动指定队列。而队列名通常是一个可读性差的ID,在调度指定队列的时候并不友好,且极容易出错。数据采集流程中,调度的url生成需要定制化开发,极度消耗人力。数据收集的持久化的数据中,丢失了页面ID,导致无法增量的收集未收集过的页面。无法自动化的记录已收集过的页面ID,以及生成未收集过的页面ID。数据收集和数据调度的脱离无法形成一个自动化的闭环。因此,本专利技术提供了一种可视化数据收集代码编写与调试方法。
技术实现思路
[0003]为了解决上述方案存在的问题,本专利技术提供了一种可视化数据收集代码编写与调试方法。
[0004]本专利技术的目的可以通过以下技术方案实现:
[0005]一种可视化数据收集代码 ...
【技术保护点】
【技术特征摘要】
1.一种可视化数据收集代码编写与调试方法,其特征在于,具体方法包括:建立数据收集架构,所述数据收集架构包括收集引擎、调度引擎、数据收取引擎和公共资源引擎,将收集引擎、调度引擎、数据收取引擎内的下载器、配置解析器、页面解析器、队列生成或发送器全部集成到公共资源引擎中;使用收集器配置,通过公共资源引擎解析配置,下载页面,解析页面并且实时生成预览;进行数据配置;完成配置后,进行调试采集。2.根据权利要求1所述的一种可视化数据收集代码编写与调试方法,其特征在于,进一步地,进行数据配置的方法包括:通过可视化的界面,进行数据收集配置,在配置过程中进行可视化调试,当调试完成后,进行数据收集配置发布;自动创建调度订阅的队列,根据命名规范约束将调度引擎和收集引擎关联起来;进行调度配置,调度配置完成后关联收集数据配置,当完成配置后进行实时发布上线和实时启动。3.根据权利要求2所述的一种可视化数据收集代码编写与调试方法,其特征在于,关联收集数据配置的方法包括:识别具有的待选收集器,生成各待选收集器对应的推荐列表,根据获得的推荐列表选择对应的目标收集器进行配置。4.根据权利要求1所述的一种可视化数据收集代码编写与调试方法,其特征在于,进行调试采集的方法包括:...
【专利技术属性】
技术研发人员:王士义,
申请(专利权)人:湖北省珍岛数字智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。