本公开涉及一种数据的处理方法、装置、存储介质和电子设备,涉及电子信息技术领域,该方法包括:获取待处理数据集,待处理数据集包括多条待处理数据,针对多条待处理数据中的每条待处理数据,若该待处理数据中存在指定的分组字段,将该待处理数据中分组字段对应的数值转换为分组字符串,根据分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入存储位置,按照指定的聚合方法,对每个存储位置内存储的待处理数据进行聚合。本公开根据分组字符串,将多条待处理数据存储在多个存储位置中,再分别对每个存储位置中的待处理数据进行聚合,能够降低数据处理对计算资源的消耗,提高处理速度。
Data processing methods, devices, storage media and electronic equipment
【技术实现步骤摘要】
数据的处理方法、装置、存储介质和电子设备
本公开涉及电子信息
,具体地,涉及一种数据的处理方法、装置、存储介质和电子设备。
技术介绍
随着大数据、云计算等电子信息技术的迅猛发展,相应带来的数据量也呈现爆发式的增长。要从海量的数据中获取对用户有用的信息,就需要对数据进行处理,例如对数据进行分组聚合等。在数据量较小的情况下,用户可以直接利用数据库自带的数据处理能力,对数据库内存储的数据进行分组聚合,以得到数据处理的结果,从而可以根据数据处理的结果生成分析报表等。然而,在数据量非常大的场景中,数据库的数据处理能力有限,处理速度缓慢,并且会消耗大量的计算资源。
技术实现思路
本公开的目的是提供一种数据的处理方法、装置、存储介质和电子设备,用以解决现有技术中通过数据库对数据进行处理,消耗的计算资源高,处理速度慢的问题。为了实现上述目的,根据本公开实施例的第一方面,提供一种数据的处理方法,所述方法包括:获取待处理数据集,所述待处理数据集包括多条待处理数据;针对多条所述待处理数据中的每条所述待处理数据,若该待处理数据中存在指定的分组字段,将该待处理数据中所述分组字段对应的数值转换为分组字符串,根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置;按照指定的聚合方法,对每个所述存储位置内存储的所述待处理数据进行聚合。可选地,所述将该待处理数据中所述分组字段对应的数值转换为分组字符串,包括:将该待处理数据中所述分组字段对应的数值作为预设的哈希算法的输入,以得到所述哈希算法输出的所述分组字符串。可选地,所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置,包括:根据所述分组字符串中起始的第一数量个字符,获取位置标识;根据所述位置标识确定所述存储位置;将该待处理数据中所述分组字段对应的数值作为键值对的键,将该处理数据中聚合字段对应的数值作为键值对的值,存入所述存储位置,所述聚合字段为所述聚合方法指示的字段。可选地,在所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置之前,所述方法还包括:若所述存储位置内存储的所述待处理数据的条数大于或等于第一存储阈值,增大所述第一数量。可选地,在所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置之前,所述方法还包括:根据所述分组字符串与目标存储位置的标识是否匹配,将该待处理数据存入内存空间,所述内存空间包括命中空间和未命中空间,所述目标存储位置为全部所述存储位置中,存储的所述待处理数据的条数最大的第二数量个存储位置;所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置,包括:若所述命中空间内存储的所述待处理数据的条数大于或等于第二存储阈值,将所述命中空间内所述分组字符串与所述目标存储位置的标识匹配的所述待处理数据,存入所述目标存储位置;若所述未命中空间内存储的所述待处理数据的条数大于或等于所述第二存储阈值,将所述未命中空间内所述分组字符串与所述目标存储位置的标识不匹配的所述待处理数据,存入全部所述存储位置中除所述目标存储位置之外的所述存储位置。可选地,所述根据所述分组字符串与目标存储位置的标识是否匹配,将该待处理数据存入内存空间,包括:若所述分组字符串与所述目标存储位置的标识匹配,将该待处理数据存入所述命中空间中所述目标存储位置的标识对应的子空间,所述命中空间包括与每个所述目标存储位置的标识对应的第二数量个所述子空间;若所述分组字符串与所述目标存储位置的标识不匹配,将该待处理数据存入未命中空间。可选地,所述将所述命中空间内所述分组字符串与所述目标存储位置的标识匹配的所述待处理数据,存入所述目标存储位置,包括:将所述命中空间中每个所述子空间内存储的所述待处理数据,存入该子空间对应的所述目标存储位置;所述将所述未命中空间内所述分组字符串与所述目标存储位置的标识不匹配的所述待处理数据,存入全部所述存储位置中除所述目标存储位置之外的所述存储位置,包括:根据所述未命中空间中的每个所述待处理数据对应的所述分组字符串,确定每个所述待处理数据对应的存储位置,并将每个所述待处理数据存入所述存储位置。根据本公开实施例的第二方面,提供一种数据的处理装置,所述装置包括:获取模块,用于获取待处理数据集,所述待处理数据集包括多条待处理数据;分组模块,用于针对多条所述待处理数据中的每条所述待处理数据,若该待处理数据中存在指定的分组字段,将该待处理数据中所述分组字段对应的数值转换为分组字符串,根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置;聚合模块,用于按照指定的聚合方法,对每个所述存储位置内存储的所述待处理数据进行聚合。可选地,所述分组模块用于:将该待处理数据中所述分组字段对应的数值作为预设的哈希算法的输入,以得到所述哈希算法输出的所述分组字符串。可选地,所述分组模块用于:根据所述分组字符串中起始的第一数量个字符,获取位置标识;根据所述位置标识确定所述存储位置;将该待处理数据中所述分组字段对应的数值作为键值对的键,将该处理数据中聚合字段对应的数值作为键值对的值,存入所述存储位置,所述聚合字段为所述聚合方法指示的字段。可选地,所述装置还包括:更新模块,用于在所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置之前,若所述存储位置内存储的所述待处理数据的条数大于或等于第一存储阈值,增大所述第一数量。可选地,所述装置还包括:存储模块,用于在所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置之前,根据所述分组字符串与目标存储位置的标识是否匹配,将该待处理数据存入内存空间,所述内存空间包括命中空间和未命中空间,所述目标存储位置为全部所述存储位置中,存储的所述待处理数据的条数最大的第二数量个存储位置;所述分组模块用于:若所述命中空间内存储的所述待处理数据的条数大于或等于第二存储阈值,将所述命中空间内所述分组字符串与所述目标存储位置的标识匹配的所述待处理数据,存入所述目标存储位置;若所述未命中空间内存储的所述待处理数据的条数大于或等于所述第二存储阈值,将所述未命中空间内所述分组字符串与所述目标存储位置的标识不匹配的所述待处理数据,存入全部所述存储位置中除所述目标存储位置之外的所述存储位置。可选地,所述存储模块用于:若所述分组字符串与所述目标存储位置的标识匹配,将该待处理数据存入所述命中空间中所述目标存储位置的标识对应的子空间,所述命中空间包括与每个所述目标存储位置的标识对应的第二数量个所述子空间;若所述分组字符串与所述目标存储位置的标识不本文档来自技高网...
【技术保护点】
1.一种数据的处理方法,其特征在于,所述方法包括:/n获取待处理数据集,所述待处理数据集包括多条待处理数据;/n针对多条所述待处理数据中的每条所述待处理数据,若该待处理数据中存在指定的分组字段,将该待处理数据中所述分组字段对应的数值转换为分组字符串,根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置;/n按照指定的聚合方法,对每个所述存储位置内存储的所述待处理数据进行聚合。/n
【技术特征摘要】
1.一种数据的处理方法,其特征在于,所述方法包括:
获取待处理数据集,所述待处理数据集包括多条待处理数据;
针对多条所述待处理数据中的每条所述待处理数据,若该待处理数据中存在指定的分组字段,将该待处理数据中所述分组字段对应的数值转换为分组字符串,根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置;
按照指定的聚合方法,对每个所述存储位置内存储的所述待处理数据进行聚合。
2.根据权利要求1所述的方法,其特征在于,所述将该待处理数据中所述分组字段对应的数值转换为分组字符串,包括:
将该待处理数据中所述分组字段对应的数值作为预设的哈希算法的输入,以得到所述哈希算法输出的所述分组字符串。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置,包括:
根据所述分组字符串中起始的第一数量个字符,获取位置标识;
根据所述位置标识确定所述存储位置;
将该待处理数据中所述分组字段对应的数值作为键值对的键,将该处理数据中聚合字段对应的数值作为键值对的值,存入所述存储位置,所述聚合字段为所述聚合方法指示的字段。
4.根据权利要求3所述的方法,其特征在于,在所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置之前,所述方法还包括:
若所述存储位置内存储的所述待处理数据的条数大于或等于第一存储阈值,增大所述第一数量。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置之前,所述方法还包括:
根据所述分组字符串与目标存储位置的标识是否匹配,将该待处理数据存入内存空间,所述内存空间包括命中空间和未命中空间,所述目标存储位置为全部所述存储位置中,存储的所述待处理数据的条数最大的第二数量个存储位置;
所述根据所述分组字符串确定该待处理数据对应的存储位置,并将该待处理数据存入所述存储位置,包括:
若所述命中空间内存储的所述待处理数据的条数大于或等于第二存储阈值,将所述命中空间内所述分组字符串与所述目标存储位置的标识匹配的所述待处理数据,存入所述目标存储位置;
若所述未...
【专利技术属性】
技术研发人员:李东鸽,牟晓光,张霞,纪勇,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。