This invention discloses a data processing optimization device based on distributed system, including distributed cache cluster, computing cluster and local caching total control management. Distributed cache cluster performs full information storage and separations from computing clusters; a computing cluster consists of two and more computing nodes, each of which includes local slow down. The storage, caching agent and computing unit; the local cache encapsulates the API operation and is embedded with capacity expansion and quota management functions, decomposed into multiple memory segments according to business requirements and implementing dynamic extension and quota management for each memory chip capacity, used in the form of jar packages; caching proxy module correspondence Local caching on the server of each memory chip monitoring work and cached data online synchronization function; local caching management unified management of each server node cache energetically. The integration of distributed cluster cache and local cache makes it possible to handle microsecond processing of massive data association matching and data filtering.
【技术实现步骤摘要】
一种基于分布式系统的数据处理优化装置及方法
本专利技术涉及计算机信息技术的大数据数据处理领域,尤其涉及一种基于分布式系统的数据处理优化装置及方法。
技术介绍
随着互联网时代的高速发展,人们的生活发生了巨大的变化。人们会利用互联网进行工作、学习和生活,数据的产生速度及共享速度也成指数增长,从而导致数据量的剧增。但由于数据的来源及类型变得复杂多样性,数据量非常庞大,与传统的数据处理方式有很大的区别。在传统数据处理方式中,数据存储、处理及分析的数据量相对较少,可以采用关系型数据库高效进行数据处理,但在海量数据处理需求,传统技术已不能满足现在数据处理的需求,因此业界普遍利用分布式技术(如hadoop、storm、spark等)对海量数据再深度分析挖掘之前进行数据预处理,也称为数据准备工作。数据准备工作在处理数据通常有如下一些特点:(1)源数据量大,主要是一些信令(传感器信令、网元信令等)或者日志(电商访问记录、消费记录等)信息;(2)计算集群数据吞吐量大,通常要求平均每条纪录预处理时长要达到几十微秒(每台服务器每秒50m以上的数据吞吐能力);(3)在流技术处理中,数据处理、数据分析全过程实效性要求高,以便做出实时响应,一般是秒级甚至毫秒级延迟。这些主要应用于对数据实效性敏感的应用领域,比如实时营销、行情分析、位置跟踪等;(4)数据类型多、信息不完整,需要进行关联补全、数据格式标准化等预处理工作。同一个分析主体(用户、用户群体等)的数据会时序的产生,关联的缓存要多次使用;(5)部分应用需要对数据进行过滤,得到满足分析主体的数据。分析主体的信息有百、千万级别量级,需要 ...
【技术保护点】
1.一种基于分布式系统的数据处理优化装置,其特征在于:包括分布式缓存集群、计算集群及本地缓存总控管理,分布式缓存集群包括两个及以上缓存节点,进行全量的信息存储并与计算集群分离;计算集群包括两个及以上计算节点,每一计算节点包括本地缓存、缓存代理及计算单元;所述本地缓存封装API操作并内嵌有容量扩展与限额管理功能,按业务要求分解成多个内存分片并实现对每个内存分片容量的动态扩展与限额管理,以jar包形式提供给计算单元使用;缓存代理模块对应服务器上的本地缓存各内存分片的监控工作以及缓存数据的在线同步功能;所述本地缓存总控管理统一管理各服务器节点的缓存大力,统一对外提供服务操作与内存监控的接口,实现本地缓存的生命周期管理。
【技术特征摘要】
1.一种基于分布式系统的数据处理优化装置,其特征在于:包括分布式缓存集群、计算集群及本地缓存总控管理,分布式缓存集群包括两个及以上缓存节点,进行全量的信息存储并与计算集群分离;计算集群包括两个及以上计算节点,每一计算节点包括本地缓存、缓存代理及计算单元;所述本地缓存封装API操作并内嵌有容量扩展与限额管理功能,按业务要求分解成多个内存分片并实现对每个内存分片容量的动态扩展与限额管理,以jar包形式提供给计算单元使用;缓存代理模块对应服务器上的本地缓存各内存分片的监控工作以及缓存数据的在线同步功能;所述本地缓存总控管理统一管理各服务器节点的缓存大力,统一对外提供服务操作与内存监控的接口,实现本地缓存的生命周期管理。2.根据权利要求1所述的一种基于分布式系统的数据处理优化装置,其特征在于:所述分布式缓存集群由Redis或Memcached搭建,可线性扩展。3.根据权利要求1所述的一种基于分布式系统的数据处理优化装置,其特征在于:所述本地缓存为kV数据结构的Java堆外内存,支持跨jvm访问。4.根据权利要求1所述的一种基于分布式系统的数据处理优化装置,其特征在于:所述API操作包括查询、创建缓存、增删改缓存。5.根据权利要求1所述的一种基于分布式系统的数据处理优化装置,其特征在于:所述监控工作包括清理、删除工作。6.根据权利要求1所述的一种基于分布式系统的数据处理优化装置,其特征在于:所述本地缓存的生命周期管理包括如下步骤:S01:由外部应用程序周期性的处理分布式缓存集群中的缓存信息;S02:处理完后通知本地缓存总控管理,本地缓存总控管理将分布式缓存集群中完成处理的缓存信息对应成为本...
【专利技术属性】
技术研发人员:黄晓伟,肖万明,余涵,叶承坤,高建国,
申请(专利权)人:福建新大陆软件工程有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。