【技术实现步骤摘要】
运算结果的确定方法和装置、存储介质及电子装置
[0001]本专利技术涉及通信领域,具体而言,涉及一种运算结果的确定方法和装置、存储介质及电子装置。
技术介绍
[0002]在用Python语言构建机器学习模型时,所需处理的样本数据规模基本在千万级上下,多则可能达到亿级以上。若采用单进程处理这些数据,其耗费的时间成本一般是难以承受的,因此需要借助多进程并行处理来缩短所需时间。从硬件上看,目前主流服务器的CPU内核数量至少32个,组建服务器集群后运算资源更为充足,完全能够满足并行运算的需求。而软件方面,依赖Python缺省库中的multiprocessing包便可编写多进程数据处理代码,解决单进程运算耗时过长的问题。multiprocessing包通过使用子进程而非线程有效地绕过了全局解释器锁,因此该程序包允许程序员充分利用给定机器上的多个处理器。同时,该包内含的Pool对象赋予函数并行化处理一系列输入值的能力,可以将输入数据分配给不同进程处理,有效的提高了编程效率。
[0003]相关技术中,多进程并行处理pandas.D ...
【技术保护点】
【技术特征摘要】
1.一种运算结果的确定方法,其特征在于,包括:通过预设方式将待处理的数据集划分为多个子数据集;在进程池中将所述多个子数据集分配给对应的多个子进程,其中,所述多个子进程用于处理所述多个子数据集;在所述多个子进程中的任一子进程处理完成所述任一子进程对应的子数据集的情况下,将所述任一子进程对应的子数据集的运算结果保存至目标存储区域;在所述多个子数据集均被处理完成的情况下,根据所述目标存储区域中保存的所述多个子数据集分别对应的多个运算结果确定所述数据集对应的目标结果。2.根据权利要求1所述的运算结果的确定方法,其特征在于,将所述任一子进程对应的子数据集的运算结果保存至目标存储区域,包括:在进程池对象在所述进程池中创建所述多个子进程的情况下,确定所述任一子数据集对应的目标子进程,其中,所述目标子进程中至少包括:数据运算程序和数据存储程序;通过所述数据运算程序对所述任一子数据集进行运算,以得到所述任一子数据集对应的运算结果;通过所述数据存储程序将所述任一子数据集对应的运算结果保存至所述目标存储区域。3.根据权利要求1所述的运算结果的确定方法,其特征在于,在进程池中将所述多个子数据集分配给对应的多个子进程,包括:确定所述进程池中的多个子进程的进程数量和所述多个子数据集中的数据集数量;确定所述进程数量和所述数据集数量的大小关系,并根据所述大小关系在进程池中将所述多个子数据集分配给对应的多个子进程。4.根据权利要求3所述的运算结果的确定方法,其特征在于,根据所述大小关系在进程池中将所述多个子数据集分配给对应的多个子进程,包括:在所述大小关系指示所述进程数量大于所述数据集数量的情况下,在所述多个子进程中确定与所述数据集数量一致的多个目标子进程,将所述多个子数据集分别分配给对应的子进程;在所述大小关系指示所述进程数量小于所述数据集数量的情况下,按照预设方式将所述多个子数据集中的第一子数据集分配给所述多个子进程;在所述多个子进程中的第一子进程处理完成对应的第一子数据集的情况下,将所述子数据集中的第二子数据集分配给所述第一子进程,直至将所述多个子数据集均分配给对应的子进程;在所述大小关系指示所述进程数量等于所述数据集数量的情况下,将所述多个子数据集一一分配给对应的多个子进程。5.根据权利要求1所述的运算结果的确定方法,其特征在于,根据所述目标存储区域中保存的所述多个子数据...
【专利技术属性】
技术研发人员:杜心达,
申请(专利权)人:兴业消费金融股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。