【技术实现步骤摘要】
一种数据处理的方法及装置、计算机设备和存储介质
[0001]本申请涉及数据统计分析
,尤其涉及一种数据处理的方法及装置、计算机设备和存储介质。
技术介绍
[0002]在数字化时代下,互联网的应用范围和边界不断扩大。众多互联网企业和传统企业逐步加快自身应用系统的更新迭代,包括电脑端和手机端,借助互联网的科技力量,为自身的服务和产品赋能。针对应用系统的升级优化,用户行为统计分析是最重要的技术支撑。通过用户行为统计分析,充分体现用户的意愿、特征和述求,利用大数据技术帮助企业进行产品设计、界面优化和精准营销,提高用户的使用体验。而一般使用Flink等流式处理框架进行大规模的实时数据统计,但是由于Flink处理数据时会存在消息重复发送的问题,导致最终统计的结果存在较大偏差。因此需要在统计分析的过程中对数据进行去重,从而消除不可靠数据源产生的重复发送的数据,使得最终的统计结果更加准确。目前,能够通过记录每条数据来判断数据是否重复,但是采用上述方法会导致每条数据都需要访问外部存储,因此在数据量较大的场景下会提升存储资源的消耗,从而降 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:获取待处理数据集合,其中,所述待处理数据集合包括L个待处理数据,L为大于1的整数;基于所述待处理数据集合创建初始位数组集合,其中,所述初始位数组集合包括N个初始位数组,每个初始位数组包括L个初始数组,所述初始数组与所述待处理数据一一关联,且每个初始数组的位置参数存在至少一个位置参数为初始值,N为大于1的整数;基于所述初始位数组集合对所述待处理数据中每个待处理数据进行处理,得到每个待处理数据在每个初始位数组中对应的取模数值,其中,所述取模数值与所述初始位数组包括的所述L个初始数组中的一个初始数组一一对应;将所述N个初始位数组中每个初始数组的位置参数,替换为所述每个待处理数据在每个初始位数组中对应的取模数值,得到目标位数组集合,其中,所述目标位数组集合包括N个目标位数组,每个目标位数组包括L个目标数组,所述目标数组与所述待处理数据一一关联,且每个目标数组的位置参数为所述每个待处理数据在每个初始位数组中对应的取模数值;基于所述目标位数组集合从所述L个待处理数据中确定目标数据,其中,所述目标数据关联的N个目标数组的位置参数与所述初始值不同,所述目标数据为重复数据。2.根据权利要求1所述的方法,其特征在于,所述基于所述初始位数组集合对所述待处理数据中每个待处理数据进行处理,得到每个待处理数据在每个初始位数组中对应的取模数值,包括:创建所述初始位数组集合对应的哈希函数;创建每个初始位数组对应的模函数;基于所述初始位数组集合对应的哈希函数以及所述每个初始位数组对应的模函数,对所述待处理数据中每个待处理数据进行处理,得到所述每个待处理数据在每个初始位数组中对应的取模数值。3.根据权利要求2所述的方法,其特征在于,所述基于所述初始位数组集合对应的哈希函数以及所述每个初始位数组对应的模函数,对所述待处理数据中每个待处理数据进行处理,得到所述每个待处理数据在每个初始位数组中对应的取模数值,包括:对所述待处理数据集合中所述L个待处理数据进行解析处理,获取每个待处理数据对应的关键值;使用所述初始位数组集合对应的哈希函数,对所述每个待处理数据对应的关键值进行哈希计算,得到每个待处理数据对应的关键值的哈希值;使用所述每个初始位数组对应的模函数,对所述每个待处理数据对应的关键值的哈希值进行取模处理,得到所述每个待处理数据在每个初始位数组中对应的取模数值。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:对所述待处理数据集合中所述L个待处理数据进行解析处理,获取每个待处理数据对应的非关键值;且在所述基于所述目标位数组集合从所述L个待处理数据中确定目标数据之后,所述方法还包括:丢弃所述目标数据。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:基于所述目标位数组集合从所述L个待处理数据中确定缓存数据,其中,所述缓存数据关联的N个目标数组中每个目标数组的位置参数均为所述初始值,所述缓存数据...
【专利技术属性】
技术研发人员:石志林,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。