【技术实现步骤摘要】
一种分布式大数据采集分析处理方法及系统
[0001]本专利技术涉及数据存储与处理
,尤其涉及一种分布式大数据采集分析处理方法及系统。
技术介绍
[0002]为保证高可用、高可靠和经济性,云计算采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,即为同一份数据存储多个副本。另外,云计算系统需要同时满足大量用户的需求,并行地为大量用户提供服务。因此,云计算的数据存储技术必须具有高吞吐率和高传输率的特点。
[0003]在实际工作中,对海量数据进行处理是一项艰巨而复杂的任务,其原因有以下几个方面:
[0004]一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。
[0005]二、软硬 ...
【技术保护点】
【技术特征摘要】
1.一种分布式大数据采集分析处理方法,其特征在于,包括如下步骤:步骤1,采集基金平台上的所有数据集中进入数据缓冲池;步骤2,通过数据处理模块对数据缓存池中的原始数据进行筛选,去除杂质数据,将原始数据引入到数据资源库中形成资源数据;步骤3,通过数据分类标记模块对数据资源库中的资源数据进行分类和序列标签化,然后对应的存储到数据索引池中。2.如权利要求1所述的一种分布式大数据采集分析处理方法,其特征在于:步骤3数据分类标记模块对数据资源库中的资源数据进行分类和序列标签化,然后对应的存储到数据索引池中,具体步骤为:首先,数据资源库中建立有数据容器,数据容器中建立数据标签模型,然后再建立数据分析引擎,通过建立数据分析引擎连通有数据容器中建立数据标签模型,最后通过数据分析引擎对数据容器中...
【专利技术属性】
技术研发人员:徐恒炜,
申请(专利权)人:苏州梓川信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。