分布式并行运算方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19543611 阅读:35 留言:0更新日期:2018-11-24 20:35
本申请公开了一种分布式并行运算方法、装置、计算机设备及存储介质。该方法包括:将待计算原始数据保存至Hive数据库;获取Hive数据库中预先存储的计算模型;将待计算原始数据和计算模型输入至Hadoop分布式计算框架进行运算,得到运算结果。该方法通过Hadoop分布式计算框架根据计算模型对海量的待计算原始数据进线分布式并发运算,计算系统的扩展性能得到优化,且提高了运算效率。

Distributed Parallel Computing Method, Device, Computer Equipment and Storage Media

This application discloses a distributed parallel computing method, device, computer equipment and storage medium. The method includes saving the original data to Hive database, obtaining the pre-stored computing model in Hive database, and inputting the original data and computing model to Hadoop distributed computing framework for operation to get the results. This method uses Hadoop distributed computing framework to distribute concurrent computation of massive raw data according to the computing model. The scalability of the computing system is optimized, and the computing efficiency is improved.

【技术实现步骤摘要】
分布式并行运算方法、装置、计算机设备及存储介质
本申请涉及分布式运算
,尤其涉及一种分布式并行运算方法、装置、计算机设备及存储介质。
技术介绍
目前企业的佣金批量计算过程中,佣金批量计算主要基于多线程计算技术。多线程存在以下问题:1)扩展性差,性能依赖于单一硬件性能。2)大幅提升性能困难,无法实现分布式计算。
技术实现思路
本申请提供了一种分布式并行运算方法、装置、计算机设备及存储介质,旨在解决现有技术中佣金批量计算主要基于多线程计算技术,其存在扩展性差,且运算效率低下的问题。第一方面,本申请提供了一种分布式并行运算方法,其包括:将待计算原始数据保存至Hive数据库;获取Hive数据库中预先存储的计算模型;将待计算原始数据和计算模型输入至Hadoop分布式计算框架进行运算,得到运算结果。第二方面,本申请提供了一种分布式并行运算装置,其包括:数据保存单元,用于将待计算原始数据保存至Hive数据库;计算模型获取单元,用于获取Hive数据库中预先存储的计算模型;分布式运算单元,用于将待计算原始数据和计算模型输入至Hadoop分布式计算框架进行运算,得到运算结果。第三方面,本申请又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请提供的任一项所述的分布式并行运算方法。第四方面,本申请还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的分布式并行运算方法。本申请提供一种分布式并行运算方法、装置、计算机设备及存储介质。该方法通过将待计算原始数据保存至Hive数据库;获取Hive数据库中预先存储的计算模型;将待计算原始数据和计算模型输入至Hadoop分布式计算框架进行运算,得到运算结果。该方法通过Hadoop分布式计算框架根据计算模型对海量的待计算原始数据进线分布式并发运算,计算系统的扩展性能得到优化,且提高了运算效率。附图说明为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种分布式并行运算方法的示意流程图;图2是本申请实施例提供的一种分布式并行运算方法的子流程示意图;图3为本申请实施例提供的一种分布式并行运算方法的另一示意流程图;图4为本申请实施例提供的一种分布式并行运算方法的另一子流程示意图;图5为本申请实施例提供的一种分布式并行运算方法的另一子流程示意图;图6为本申请实施例提供的一种分布式并行运算装置的示意性框图;图7为本申请实施例提供的一种分布式并行运算装置的子单元示意性框图;图8为本申请实施例提供的一种分布式并行运算装置的另一示意性框图;图9为本申请实施例提供的一种分布式并行运算装置的另一子单元示意性框图;图10为本申请实施例提供的一种分布式并行运算装置的另一子单元示意性框图;图11为本申请实施例提供的一种计算机设备的示意性框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。请参阅图1,图1是本申请实施例提供的一种分布式并行运算方法的示意流程图。该方法应用于服务器中。如图1所示,该方法包括步骤S101~S104。S101、将待计算原始数据保存至Hive数据库。在本实施例中,是在部署有Hadoop分布式计算框架的服务器端执行本申请中提供的并行运算方法。将待计算原始数据(例如佣金计算原始数据)保存至服务器端本地的Hive数据库时,是通过Sqoop脚本(Sqoop脚本主要用于在Hadoop或Hive,与传统的数据库如mysql或postgresql间进行数据的传递)将待计算原始数据导入至Hive数据库进行保存。待计算原始数据可以是通过接收关联系统(如承保系统)发送的变更信息,变更信息可以可进行后续识别以便于计算相应的业务员的佣金。其中,变更信息可以包括数据变更信息以及属性变更信息。所述数据变更信息可以包括新保单的生成、已有保单中的承保金额的变化以及退保等操作行为。具体的,新保单的生成可指产生了新的承保金额,此时用户的佣金提成应发生相应的变化;同理,若已有保单中的承保金额因客户减少承保金额或增加承保金额,此时用户的佣金提成也应发生相应的变化;另外,如若客户选择退保,此时也应相应地减少并调节用户的佣金提成。所述属性变更信息可以包括用户的职级变化、考勤情况、服务品质以及是否离职等属性变化。具体的,用户的职级变化会造成相应的佣金提成的变化,如升职则会增加相应的佣金提成,而降职则会减少相应的佣金提成;同理,若用户存在考勤方面的问题,也会使得佣金提成产生相应的变化,如迟到扣款、请假扣款等;若用户被其客户投诉,每投诉一次也会产生相应的扣款,此时佣金提成也会发生变化;另外,如用户离职,则也会产生相应的佣金调整。在一实施例中,如图2所示,步骤S101包括:S1011、生成与待计算原始数据对应的表名,根据表名在Hive数据库对应建立存储表格;S1012、读取待计算原始数据的每一张数据表,生成与每一张数据表一一对应的Sqoop脚本;S1013、通过与每一张数据表一一对应的Sqoop脚本,将待计算原始数据保存至Hive数据库中的存储表格。在本实施例中,若待计算原始数据初始是存储在传统的数据库如mysql或postgresql中,当其导入至Hive数据库时,先生成待导入的表名,保存在文件中,例如使用“selecttable_namefromdba_tableswhereOwner=user”语句将用户表筛选出来,保存在文本里,然后人工检查,剔除不需要的表。然后再准备好oracle连接参数,读取待计算原始数据,逐个生成Sqoop脚本,在默认hive表名与oracle一致的前提下,将通过与每一张数据表一一对应的Sqoop脚本,将待计算原始数据保存至Hive数据库中的存储表格。通过Sqoop脚本,实现了快速将待计算原始数据进行导入。S102、获取Hive数据库中预先存储的计算模型。在本实施例中,当Hive数据库中获取了所上传的待处理的待计算原始数据后本文档来自技高网...

【技术保护点】
1.一种分布式并行运算方法,其特征在于,包括:将待计算原始数据保存至Hive数据库;获取Hive数据库中预先存储的计算模型;将待计算原始数据和计算模型输入至Hadoop分布式计算框架进行运算,得到运算结果。

【技术特征摘要】
1.一种分布式并行运算方法,其特征在于,包括:将待计算原始数据保存至Hive数据库;获取Hive数据库中预先存储的计算模型;将待计算原始数据和计算模型输入至Hadoop分布式计算框架进行运算,得到运算结果。2.根据权利要求1所述的分布式并行运算方法,其特征在于,所述将待计算原始数据保存至Hive数据库,包括:生成与待计算原始数据对应的表名,根据表名在Hive数据库对应建立存储表格;读取待计算原始数据的每一张数据表,生成与每一张数据表一一对应的Sqoop脚本;通过与每一张数据表一一对应的Sqoop脚本,将待计算原始数据保存至Hive数据库中的存储表格。3.根据权利要求1所述的分布式并行运算方法,其特征在于,所述将待计算原始数据和计算模型输入至Hadoop分布式计算框架进行运算之前,还包括:将预先配置有相同主机名称、及Hadoop压缩包的终端进行联网并建立集群,得到Hadoop分布式计算框架。4.根据权利要求1所述的分布式并行运算方法,其特征在于,所述获将待计算原始数据和计算模型输入至Hadoop分布式计算框架进行运算,得到运算结果,包括:将待计算原始数据输入至Hadoop分布式计算框架中的任务跟踪进程;将待计算原始数据根据预设的分片数目进行分片,任务跟踪进程将分片后数据传输至Hadoop分布式计算框架中的任务处理进程;任务处理进程对分片后数据对应进行map运算或reduce运算后,得到与分片后数据对应的运算结果。5.根据权利要求4所述的分布式并行运算方法,其特征在于,所述任务处理进程对分片后数据对应进行map运算或reduce运算后,得到与分片后数据对应的运算结果之后,还包括;将运算结果存储在Hadoop分布式计算框架中的分布式文...

【专利技术属性】
技术研发人员:周毅
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1