【技术实现步骤摘要】
一种基于业务插件化的电商大数据采集系统
本专利技术涉及互联网大数据领域,具体涉及一种基于业务插件化的电商大数据采集系统。
技术介绍
随着互联网技术的日新月异,电子商务发展也十分迅猛,已经成为推动地区经济发展的重要力量。针对以上背景,我们迫切地需要得到大体量、高质量的数据来做分析调研,以便能够更直观地反映地区电商产业发展状况,及时做出更好的调整。电商大数据主要包括两块内容:电商经营主体的基本信息和电商经营主体的交易信息。这些数据分布在各大主流电商网站上,其内容错综复杂,结构各异,而且随着时间推移和技术的发展,内容和结构也在推陈出新。针对这种情况,做出单一的解决方案显然是不现实的。大数据采集作为大数据领域的一个关键技术,为大数据分析提供了重要的数据支持,从而为传统的数据分析方法注入了新的活力。它通过网络爬虫的方式,在短时间内能获取到大量的目标数据,且对数据经过一定的处理后,数据变得层次分明。传统的大数据采集中,侧重点往往是针对单一网站的采集,或者将多个网站采集时的爬虫业务固定化,没有考虑到电商网站升级之后随之而来的系统升级造成的系统开销,使用户体验大大降低。专利技术内 ...
【技术保护点】
1.一种大数据场景下基于业务插件化的电商大数据采集系统,其特征在于:所述数据采集系统部署在服务端和客户端,分为三个功能模块:任务管理模块、任务处理模块和数据处理模块;所述任务管理模块,用于通过任务调度服务,分配待执行的任务,由任务认领服务接收待处理的任务到客户端,然后交由任务解析服务,该服务对任务内容进行解析并后结合任务处理模块管理服务去判断是否存在对应的业务处理插件,若不存在,则去下载响应的业务插件;若存在,则进行版本号比对并进行相应处理;所述任务处理模块,由不同的具体业务插件组成,用于负责实际的爬虫任务,采用DLL通用导出函数去执行完成这些业务;所述数据处理模块,用于将 ...
【技术特征摘要】
1.一种大数据场景下基于业务插件化的电商大数据采集系统,其特征在于:所述数据采集系统部署在服务端和客户端,分为三个功能模块:任务管理模块、任务处理模块和数据处理模块;所述任务管理模块,用于通过任务调度服务,分配待执行的任务,由任务认领服务接收待处理的任务到客户端,然后交由任务解析服务,该服务对任务内容进行解析并后结合任务处理模块管理服务去判断是否存在对应的业务处理插件,若不存在,则去下载响应的业务插件;若存在,则进行版本号比对并进行相应处理;所述任务处理模块,由不同的具体业务插件组成,用于负责实际的爬虫任务,采用DLL通用导出函数去执行完成这些业务;所述数据处理模块,用于将任务处理模块返回的页面内容进行解析,并整理入库。2.如权利要求1所述的大数据场景下基于业务插件化的电商大数据采集系统,其特征在于:所述任务管理模块中,由DelphiIDE集成开发框架为开发平台开发,所述任务处理模块是由Delphi语言进行开发,以Indy组件作为HTTP通信的基础,数据处理模块由Java语言开发而成,使用MySQL进行数据库存储。3.如权利要求1或2所述的大数据场景下基于业务插件化的电商大...
【专利技术属性】
技术研发人员:徐志江,李天琦,张昱,卢为党,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。