The embodiment of the invention discloses a data processing method, an electronic device and a computer-readable storage medium. By dividing the original data table into a plurality of data segments, initializing a plurality of hash tables according to the characteristic information of the acquired original data table, multithreading processes a plurality of data segments in parallel to obtain the data processing results, updating the plurality of hash tables according to the data processing results, and merging A plurality of hash tables are used to obtain data grouping and aggregation results. Therefore, the embodiment of the invention processes multiple data segments of the original data table in parallel by multithreading, and groups the data processing results through the structure of the hash table, thus improving the efficiency of data grouping and aggregation operation.
【技术实现步骤摘要】
一种数据处理方法、电子设备和计算机可读存储介质
本申请涉及计算机
,更具体地,涉及一种数据处理方法、电子设备和计算机可读存储介质。
技术介绍
在目前的大数据背景下,数据分析需求极大。其中,对数据进行聚合是很多数据分析中的重要步骤。一般来说,数据聚合就是将一些数据按照特定数据项进行分组,如年龄、专业、或者收入等数据项。例如,一个站点销售音乐CD,它可能会基于用户的年龄来将用户分组,然后得到不同年龄的音乐爱好。在数据库的应用中,为了从一张数据表中的大量数据中提取出具有某些具有特征性的数据,最常用的就是对表格数据分组,并对分组后的数据执行相应的运算,例如求每一组的最大值、平均值等信息。通常情况下,在数据库中执行分组聚合操作涉及的数据量大,现有方法通常采用CPU处理器来进行处理,耗费时间长,数据处理效率低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据处理方法、电子设备和计算机可读存储介质,以提高数据分组聚合运算的效率。第一方面,本专利技术实施例提供一种数据处理方法,所述方法包括:获取原始数据表的特征信息;将所述原始数据表分为多个数据段;根据所述特征信息初始化多个哈希表,其中,所述哈希表用于存储对应的数据段的数据处理结果;多线程并行处理所述多个数据段以获取数据处理结果;根据所述数据处理结果更新所述多个哈希表;以及合并所述多个哈希表以获取数据分组聚合结果。可选的,根据所述特征信息初始化多个哈希表包括:根据所述特征信息确定哈希表的长度;以及根据所述哈希表的长度建立多个空哈希表。可选的,所述特征信息包括所述原始数据表的至少一个数据项,所述数据项包括至少一个数 ...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取原始数据表的特征信息;将所述原始数据表分为多个数据段;根据所述特征信息初始化多个哈希表,其中,所述哈希表用于存储对应的数据段的数据处理结果;多线程并行处理所述多个数据段以获取数据处理结果;根据所述数据处理结果更新所述多个哈希表;以及合并所述多个哈希表以获取数据分组聚合结果。
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取原始数据表的特征信息;将所述原始数据表分为多个数据段;根据所述特征信息初始化多个哈希表,其中,所述哈希表用于存储对应的数据段的数据处理结果;多线程并行处理所述多个数据段以获取数据处理结果;根据所述数据处理结果更新所述多个哈希表;以及合并所述多个哈希表以获取数据分组聚合结果。2.根据权利要求1所述的方法,其特征在于,根据所述特征信息初始化多个哈希表包括:根据所述特征信息确定哈希表的长度;以及根据所述哈希表的长度建立多个空哈希表。3.根据权利要求2所述的方法,其特征在于,所述特征信息包括所述原始数据表的至少一个数据项,所述数据项包括至少一个数据项值。4.根据权利要求3所述的方法,其特征在于,根据所述特征信息确定哈希表的长度包括:计算所述数据项值的组合的数量与预设的可变因子的乘积以确定所述哈希表的长度。5.根据权利要求4所述的方法,其特征在于,在所述特征信息中的数据项的数量为1时,所述数据项值的组合包括一个数据项值,所述数据项值的组合的数量为所述数据项中的数据项值的个数;在所述特征信息中的数据项数量大于1时,所述数据项值的组合中包括每个数据项中的一个数据项值,所述数据项值的组合的数量为每个数据项中的数据项值的个数的乘积。6.根据权利要求1所述的方法,其特征在于,多线程并行处理所述多个数据段以获取数据处理结果包括...
【专利技术属性】
技术研发人员:谢超,盛江红,易小萌,郭人通,
申请(专利权)人:上海赜睿信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。