【技术实现步骤摘要】
一种基于数据池结合算力数据分析的优化方法
[0001]本专利技术属于大数据与AI
,具体涉及一种基于数据池结合算力数据分析的优化方法。
技术介绍
[0002]随着科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集不再是问题,如今的技术问题是面对如此众多的数据,我们怎样才能找到其内在规律。数据湖架构是面向多数据源的信息存储,包括物联网在内,大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户,但数据湖架构可不仅仅是一个巨大的磁盘而已,数据湖的数据持久性和安全是需要优先考虑的因素,很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除,这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对,这将抵消其容量成本,所以我们需要对数据进行优化。
[0003]针对数据分析优化,现有技术已有相关报 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据池结合算力数据分析的优化方法,其特征在于包括以下步骤:S11、部署分布式中央初始数据池并进行数据整理;S12、创建线程池进行数据处理,同时通过岭回归方法创建特殊辅助分析模型完成数据优化分析。2.根据权利要求1所述的基于数据池结合算力数据分析的优化方法,其特征在于:所述步骤S11包括以下步骤:S111、在中央服务器部署中央初始数据池;同时创建对存储数据进行分类存储的多种类型数据池和归档数据池;S112、在分布式网络各网络节点部署中央初始数据池对应的初始数据仓储罐收集地方数据,并进行初步整理,将其中的价值不大数据放入中央初始数据池分配出来的杂物数据池;S113、将采集的物理设备及网络数据、应用运算数据、日志文本数据放入到中央初始数据池,同时捕捉到采集数据对应的元数据,采集数据关联的元数据和元过程数据一起传递给对应类型数据池进行处理。3.根据权利要求2所述的基于数据池结合算力数据分析的优化方法,其特征在于:所述步骤S12包括以下步骤:S121、构建线程池,通过线程池对存储设备所在网络节点的算力估算空闲算力,同时结合总能耗和总时延数据,对多种类型数据进行排序和选址,选址后再对存储的数据进行休整;S122、通过岭回归方法构建特殊辅助分析模型,检测各类型数据池数据关联数据之间是否异常及是否有较强的泛化能力;S123、当存储在初始数据池的特殊数据需要与各网络节点部署的多种类型数据池存储的数据进行关联运算时,通过特殊辅助分析模型优化掉部分数据来完成数据的优化分析。4.根据权利要求3所述的基于数据池结合算力数据分析的优化方法,其特征在于:所述步骤S123具体包括以下步骤:S1231、将特殊数据与地方网络节点关关联数据的元数据ID放在一个数据集合;S1232、将特殊数据放入特殊辅助分析模型运算,得到特殊拟合值;S1233、将地方网络节点关联的数据池数据逐一放入特殊辅助分析模型运算,得到实际拟合值;S1234、将特殊拟合值和实际拟合值进行差值比较,取差值大于10%的数据进行联合分析,并将分析结果存储在中央初始数据池分配的杂项数据池内。5.根据权利要求3所述的基于数据池结合算力数据分析的优化方法,其特征在于:所述数据修整包括对符合超过一年以上的重复性数据、不经常参与数据分析的数据、特定标识强行保留的数...
【专利技术属性】
技术研发人员:唐继哲,朱定华,
申请(专利权)人:广西壮族自治区公众信息产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。