【技术实现步骤摘要】
本专利技术涉及大批量数据处理,特别是一种大批量数据处理方法及系统。
技术介绍
1、大批量数据处理技术是指用于处理海量数据集的一系列技术和方法,旨在提高数据处理的速度、准确性和可扩展性。因此,如何利用先进的技术手段提高大批量数据处理的智能化水平和安全性成为当前亟待解决的问题之一。
2、在大批量数据处理领域,传统数据处理系统在面对多源异构数据时,往往难以实现实时的数据收集和处理,在大数据处理过程中,如果数据分片不够均匀,会导致某些节点过载,从而降低整个系统的处理效率,且对于复杂的数据分析任务,模型参数的优化是一个关键但耗时的过程,缺乏有效的收敛判据,易导致过度迭代或次优解。
技术实现思路
1、鉴于上述现有存在的问题,提出了本专利技术。
2、因此,本专利技术提供了一种大批量数据处理方法解决在大数据处理过程中,如果数据分片不够均匀,会导致某些节点过载,从而降低整个系统的处理效率,且对于复杂的数据分析任务,模型参数的优化是一个关键但耗时的过程,缺乏有效的收敛判据,易导致过度迭
...【技术保护点】
1.一种大批量数据处理方法,其特征在于:包括:
2.如权利要求1所述的大批量数据处理方法,其特征在于:所述采用分布式消息队列对多源异构数据进行实时采集,得到原始数据流,具体步骤为:
3.如权利要求2所述的大批量数据处理方法,其特征在于:所述采用熵权动态分片算法对原始数据流进行分片处理,得到均匀分布的数据分片,具体步骤为:
4.如权利要求3所述的大批量数据处理方法,其特征在于:所述基于原始数据流构建结合HyperLogLog++与布隆过滤器的混合模型,并对数据分片进行去重,得到唯一数据集合,具体步骤为:
5.如权利要求4所
...【技术特征摘要】
1.一种大批量数据处理方法,其特征在于:包括:
2.如权利要求1所述的大批量数据处理方法,其特征在于:所述采用分布式消息队列对多源异构数据进行实时采集,得到原始数据流,具体步骤为:
3.如权利要求2所述的大批量数据处理方法,其特征在于:所述采用熵权动态分片算法对原始数据流进行分片处理,得到均匀分布的数据分片,具体步骤为:
4.如权利要求3所述的大批量数据处理方法,其特征在于:所述基于原始数据流构建结合hyperloglog++与布隆过滤器的混合模型,并对数据分片进行去重,得到唯一数据集合,具体步骤为:
5.如权利要求4所述的大批量数据处理方法,其特征在于:所述采用布隆过滤器对每个数据分片中的元素进行去重处理,遍历数据分片中的每一个元素,具体步骤为:
...【专利技术属性】
技术研发人员:陈翼坤,黄长泉,高康皓,陈威,邱璐,蔡紫怡,陈海明,叶炳雍,王珍珠,薛珂,李巧琳,姚诗琦,李重儒,卜子洋,黄丽芬,黄伟锋,黄萍萍,栗松,吴湘滢,刘赫楠,
申请(专利权)人:中科数创厦门智能科技研究院有限合伙,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。