【技术实现步骤摘要】
一种对广告效果数据实时处理的计算系统
本专利技术属于大数据实时计算存储
,具体涉及一种对广告效果数据实时处理的计算系统。
技术介绍
随着公司广告业务的不断发展,业务量逐渐上升,原有的实时数据处理方案已经越来越不能满足业务需求,越来越多的问题显现出来:采集数据容易丢失;无标准的实时数据处理流程,存在隐患;数据存储集群无法平台化管理,运维效率低,出错概率大。为了解决这些问题,调研了目前流行的技术方案如下:(1)数据收集服务目前业界的数据收集服务大多都根据自身业务数据采集的需求进行定制,并且在数据收集到之后即把数据按照规则逐一写入文件,不涉及到其他处理。这也是比较统一的做法,因此我们的数据收集服务也会基于这一收集流程以及广告业务数据采集的需求来定制广告业务数据收集服务,这样做的好处有:完全符合自身数据采集的需要,无需做各种妥协处理;数据直接写入文件,尽可能确保了数据的安全性和完整性,为后续的数据处理提供保障。(2)数据传输服务目前业界流行以下三组方案:Logstash,由Elastic公司开源,基于JRuby开发的数据传输工具,支持的功能包括:从多种数据源读取数据(kafka、file、redis等等)、对数据进行过滤和简单的解析、将数据导入多种数据存储组件(elasticsearch、kafka、redis、influxdb等等),功能支持十分强大,同时也支持自定义的插件来扩展功能,但是在我们的场景下存在以下问题:①Logstash基于JRuby开发,部署运维复杂,并 ...
【技术保护点】
1.一种对广告效果数据实时处理的计算系统,包括数据收集服务器集群、数据传输服务器、数据实时处理服务器集群、数据存储服务器集群,其特征在于:/n所述数据收集服务器集群用于为多样的数据采集端提供统一的数据收集入口,并按照制定的数据采集规范将收集到的数据写入文件,同时集群中的每台数据收集服务器均为无状态服务,在性能不足时可以很方便的进行扩展;/n所述数据传输服务器依托于数据采集规范将写入文件的数据实时传输到MQ,即保障了数据持久性又降低了数据实时处理服务与数据收集服务之间的耦合度,并且支持断点续传功能;/n所述数据实时处理服务器集群用于从MQ中实时读取数据并按照对应数据分析及存储需求进行拆分、计算并将处理结果数据写入数据存储服务器集群,保证了数据处理的及时性;另外即便是集群有一定比例的服务实例挂掉,依然可以继续正常对MQ中的数据进行处理;/n所述数据存储服务器集群用于提供数据备份、快速错误恢复的功能,数据存储在磁盘,这大大降低了存储成本并且允许存储较大的数据量,并且同时保证了数据存取的性能;另外数据存储服务器集群还提供了相应的管理平台,最大程度减少运维复杂度和集群日常维护的工作量。/n
【技术特征摘要】
1.一种对广告效果数据实时处理的计算系统,包括数据收集服务器集群、数据传输服务器、数据实时处理服务器集群、数据存储服务器集群,其特征在于:
所述数据收集服务器集群用于为多样的数据采集端提供统一的数据收集入口,并按照制定的数据采集规范将收集到的数据写入文件,同时集群中的每台数据收集服务器均为无状态服务,在性能不足时可以很方便的进行扩展;
所述数据传输服务器依托于数据采集规范将写入文件的数据实时传输到MQ,即保障了数据持久性又降低了数据实时处理服务与数据收集服务之间的耦合度,并且支持断点续传功能;
所述数据实时处理服务器集群用于从MQ中实时读取数据并按照对应数据分析及存储需求进行拆分、计算并将处理结果数据写入数据存储服务器集群,保证了数据处理的及时性;另外即便是集群有一定比例的服务实例挂掉,依然可以继续正常对MQ中的数据进行处理;
所述数据存储服务器集群用于提供数据备份、快速错误恢复的功能,数据存储在磁盘,这大大降低了存储成本并且允许存储较大的数据量,并且同时保证了数据存取的性能;另外数据存储服务器集群还提供了相应的管理平台,最大程度减少运维复杂度和集群日常维护的工作量。
2.根据权利要求1所述的计算系统,其特征在于:所述数据收集服务器集群根据自身业务场景编写数据采集服务,支持多样的采集端,支持使用HTTP/HTTPS/TCP协议进行数据上报,制定了包括采集文件的状态、采集数据的组织格式在内的数据采集规范,并根据该规范把采集数据逐条写入文件,同时支持动态新增、修改、删除收集任务,对正在进行的收集任务不会有任何影响,支持查看收集任务的实时状态。
3.根据权利要求1所述的计算系统,其特征在于:所述数据传输服务器基于elastic公司开源的filebeat-v6.4进行了功能扩充,支持数据采集规范中定义的采集文件状态转换功能以及数据输出格式,支持timezone时区的配置,支持将文件中的数据实时传输至MQ,随时跟进Filebeat的最新功能,MQ使用Kafka-2.0。
4.根据权利要求1所述的计算系统,其特征在于:所述数据实时处理服务器集群基于Kafka-2.0提供的Kafka-Stream库搭建轻量级的流式计算框架SW-Kafka-Stream,完全原生兼容Kafka的设计模式,提供简单高效的流式计算功能。
5.根...
【专利技术属性】
技术研发人员:丁善富,林剑炜,魏新杰,
申请(专利权)人:杭州顺网科技股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。