System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于分布式架构的对海量数据收集及存储方法和系统技术方案_技高网

一种基于分布式架构的对海量数据收集及存储方法和系统技术方案

技术编号:41063754 阅读:3 留言:0更新日期:2024-04-24 11:17
本发明专利技术提出了一种基于分布式架构的对海量数据收集及存储方法和系统。所述基于分布式架构的对海量数据收集及存储的方法包括根据用户的目标需求搭建集群网关;针对所述集成网关创建数据收集工具库;利用所述工具库中的数据抓取工具实时收集用户的目标数据平台内产生的数据信息,并对所述数据信息进行海量存储。所述系统包括与所述方法步骤对应的模块。

【技术实现步骤摘要】

本专利技术提出了一种基于分布式架构的对海量数据收集及存储方法和系统,属于数据存储。


技术介绍

1、海量数据收集及存储是指在信息
中,处理大规模、庞大数量的数据的过程,以及相应的数据存储需求。这种情况通常出现在大型组织、互联网公司、科研项目、物联网应用等需要处理大量数据的场景中。然而,当前海量数据收集及存储过程中,收集和分析生产环节中的大量数据,并加强系统监控和维护以及发现和解决潜在问题。如果说系统承受海量数据的收集,存储或计算等,会导致性能下降,甚至说系统宕机从而影响系统的高负载和性能问题。


技术实现思路

1、本专利技术提供了一种基于分布式架构的对海量数据收集及存储方法和系统,用以解决现有技术中收集和分析生产环节中的大量数据,并加强系统监控和维护以及发现和解决潜在问题,以及,如果说系统承受海量数据的收集,存储或计算等,会导致性能下降,甚至说系统宕机从而影响系统的高负载和性能的问题:

2、一种基于分布式架构的对海量数据收集及存储的方法,所述基于分布式架构的对海量数据收集及存储的方法包括:

3、根据用户的目标需求搭建集群网关;

4、针对所述集成网关创建数据收集工具库;

5、利用所述工具库中的数据抓取工具实时收集用户的目标数据平台内产生的数据信息,并对所述数据信息进行海量存储。

6、进一步地,根据用户的目标需求搭建集群网关,包括:

7、实时监测用户发送的目标需求信息;

8、从所述用户发送的目标需求信息中提取用户的需求数据信息,其中,所述需求数据信息包括收集和存储的数据类型、搜索响应时间需求和数据搜索准确性指标需求;

9、根据用户的需求数据信息创建集群网关。

10、进一步地,针对所述集成网关创建数据收集工具库,包括:

11、提取所述目标需求信息中所包含的收集和存储的数据类型信息;

12、获取用户进行数据搜索的数据平台;

13、根据所述数据类型信息和数据平台从数据库中调取与所述数据类型信息和数据平台相对应的数据抓取工具;

14、利用所述数据抓取工具集成为工具库。

15、进一步地,利用所述工具库中的数据抓取工具实时收集用户的目标数据平台内产生的数据信息,并对所述数据信息进行海量存储,包括:

16、用所述工具库中的数据抓取工具实时收集用户的目标数据平台内产生的数据信息;

17、将所述数据信息根据数据类型进行数据分类,形成与所述数据类型对应的数据信息集合;

18、将所述数据信息集合存储至于所述数据信息集合的数据类型对应的存储空间中。

19、进一步地,所述基于分布式架构的对海量数据收集及存储的方法,还包括:

20、设置数据监控时间段;其中,所述数据监控时间段的取值范围为10min-15min;

21、当所述数据类型对应的存储空间的已被占用空间达到存储空间的80%时,启动数据类型对应的存储空间的空间增量运行;

22、在启动数据类型对应的存储空间的空间增量运行之后,通过每个数据监控时间段对应的数据收集情况,确定数据类型对应的存储空间的增加量;其中,所述数据类型对应的存储空间的增加量通过如下公式获取:

23、cz=(1+cfmax/csmin+cp/cs)×c0

24、其中,cz表示数据类型对应的存储空间的增加量;c0表示预设的空间增量基准数值;cp表示数据类型对应的单位时间的平均数据增量,并且,单位时间为1min;cfmax表示据类型对应的单位时间的数据增量的最大增幅;cs表示数据类型对应的存储空间剩余空间容量;csmin表示数据类型对应的存储空间所允许的最小剩余空间容量;

25、其中,根据日常数据量的增长情况,在增加cz的存储空间的基础上,增加备用存储空间,其计算公式如下:

26、步骤一:设最近3天的数据增加次数为n,第i次数据增量为mi,i为大于等于且小于等于n的整数,则最近3天总的数据增量为:

27、

28、其中m为最近3天总的数据增量;

29、步骤二:根据最近3天数据增量情况计算如下相关指标:

30、

31、其中a为最近3天数据增量的均值,s为最近3天数据增量的标准差,k为最近三天数据增量从小到大排序后75分位-100分位的均值;

32、步骤三:根据步骤二的计算结果,计算应增加的备用存储空间大小,其计算公式如下:

33、

34、其中bz为应增加的备用存储空间大小。

35、按照所述每个数据类型对应的存储空间的增加量对所述数据类型对应的存储空间进行空间增量。

36、一种基于分布式架构的对海量数据收集及存储的系统,所述基于分布式架构的对海量数据收集及存储的系统包括:

37、集群网关搭建模块,用于根据用户的目标需求搭建集群网关;

38、工具库创建模块,用于针对所述集成网关创建数据收集工具库;

39、海量存储模块,用于利用所述工具库中的数据抓取工具实时收集用户的目标数据平台内产生的数据信息,并对所述数据信息进行海量存储。

40、进一步地,所述集群网关搭建模块,包括:

41、信息监测模块,用于实时监测用户发送的目标需求信息;

42、需求数据信息提取模块,用于从所述用户发送的目标需求信息中提取用户的需求数据信息,其中,所述需求数据信息包括收集和存储的数据类型、搜索响应时间需求和数据搜索准确性指标需求;

43、创建执行模块,用于根据用户的需求数据信息创建集群网关。

44、进一步地,所述工具库创建模块,包括:

45、类型信息提取模块,用于提取所述目标需求信息中所包含的收集和存储的数据类型信息;

46、数据平台获取模块,用于获取用户进行数据搜索的数据平台;

47、抓取工具调取模块,用于根据所述数据类型信息和数据平台从数据库中调取与所述数据类型信息和数据平台相对应的数据抓取工具;

48、工具集成模块,用于利用所述数据抓取工具集成为工具库。

49、进一步地,所述海量存储模块包括:

50、数据实时收集模块,用于用所述工具库中的数据抓取工具实时收集用户的目标数据平台内产生的数据信息;

51、数据分类执行模块,用于将所述数据信息根据数据类型进行数据分类,形成与所述数据类型对应的数据信息集合;

52、存储执行模块,公寓将所述数据信息集合存储至于所述数据信息集合的数据类型对应的存储空间中。

53、进一步地,所述基于分布式架构的对海量数据收集及存储的系统,还包括:

54、时间段设置模块,用于设置数据监控时间段;其中,所述数据监控时间段的取值范围为10min-15min;

55、空间增量运行模块,用于当所述数据类型对应的存储空本文档来自技高网...

【技术保护点】

1.一种基于分布式架构的对海量数据收集及存储的方法,其特征在于,所述基于分布式架构的对海量数据收集及存储的方法包括:

2.根据权利要求1所述基于分布式架构的对海量数据收集及存储的方法,其特征在于,根据用户的目标需求搭建集群网关,包括:

3.根据权利要求1所述基于分布式架构的对海量数据收集及存储的方法,其特征在于,针对所述集成网关创建数据收集工具库,包括:

4.根据权利要求1所述基于分布式架构的对海量数据收集及存储的方法,其特征在于,利用所述工具库中的数据抓取工具实时收集用户的目标数据平台内产生的数据信息,并对所述数据信息进行海量存储,包括:

5.根据权利要求1所述基于分布式架构的对海量数据收集及存储的方法,其特征在于,所述基于分布式架构的对海量数据收集及存储的方法,还包括:

6.一种基于分布式架构的对海量数据收集及存储的系统,其特征在于,所述基于分布式架构的对海量数据收集及存储的系统包括:

7.根据权利要求6所述基于分布式架构的对海量数据收集及存储的系统,其特征在于,所述集群网关搭建模块,包括:

8.根据权利要求6所述基于分布式架构的对海量数据收集及存储的系统,其特征在于,所述工具库创建模块,包括:

9.根据权利要求6所述基于分布式架构的对海量数据收集及存储的系统,其特征在于,所述海量存储模块包括:

10.根据权利要求6所述基于分布式架构的对海量数据收集及存储的系统,其特征在于,所述基于分布式架构的对海量数据收集及存储的系统,还包括:

...

【技术特征摘要】

1.一种基于分布式架构的对海量数据收集及存储的方法,其特征在于,所述基于分布式架构的对海量数据收集及存储的方法包括:

2.根据权利要求1所述基于分布式架构的对海量数据收集及存储的方法,其特征在于,根据用户的目标需求搭建集群网关,包括:

3.根据权利要求1所述基于分布式架构的对海量数据收集及存储的方法,其特征在于,针对所述集成网关创建数据收集工具库,包括:

4.根据权利要求1所述基于分布式架构的对海量数据收集及存储的方法,其特征在于,利用所述工具库中的数据抓取工具实时收集用户的目标数据平台内产生的数据信息,并对所述数据信息进行海量存储,包括:

5.根据权利要求1所述基于分布式架构的对海量数据收集及存储的方法,其特征在于,所述基于...

【专利技术属性】
技术研发人员:余丹兰雨晴王美昌李森
申请(专利权)人:慧之安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1