一种基于抽取的商业智能分析平台自动分区方法及装置制造方法及图纸

技术编号:23212693 阅读:13 留言:0更新日期:2020-01-31 21:50
本发明专利技术公开了一种基于抽取的商业智能分析平台自动分区方法及装置,本方案基于商业智能分析平台的数据抽取功能,用户在数据集配置抽取功能将源数据抽取到商业智能分析平台数据库中,为避免spark引擎在每个执行分支数据倾斜导致处理缓慢甚至出现内存移除失败的情况,平台开发出对客户数据源抽取时自动设置分区,保障每个执行分支数据均衡,降低内存消耗与时效的手段。解决了现有的商业智能分析平台在利用spark引擎抽取数据时,spark引擎中不同的执行分支需要处理的数据量差距较大,且数据量较大导致整个内存被严重占用,磁盘及IO也一直被负荷使用,可能导致内存溢出或者服务器资源状态异常的问题。

An automatic partition method and device of business intelligence analysis platform based on Extraction

【技术实现步骤摘要】
一种基于抽取的商业智能分析平台自动分区方法及装置
本专利技术涉及数据抽取领域,特别涉及一种基于抽取的商业智能分析平台自动分区方法及装置。
技术介绍
商业智能(BusinessIntelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力(insight),促使他们做出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。商业智能的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。因此,把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具(大数据魔镜)、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。现有的商业智能分析平台在利用spark引擎抽取数据时,spark引擎中不同的执行分支需要处理的数据量差距较大,经常出现一个执行分支已经处理完成了,另一个执行分支处理还不到一半的问题,那么完成任务后的执行分支就存在资源空闲,而另一个执行分支所在的服务器就会因为任务持续存在,且数据量较大导致整个内存被严重占用,磁盘及IO也一直被负荷使用,可能导致内存溢出或者服务器资源状态异常。
技术实现思路
本专利技术的目的在于:提供了一种基于抽取的商业智能分析平台自动分区方法及装置,解决了现有的商业智能分析平台在利用spark引擎抽取数据时,spark引擎中不同的执行分支需要处理的数据量差距较大,经常出现一个执行分支已经处理完成了,另一个执行分支处理还不到一半的问题,那么完成任务后的执行分支就存在资源空闲,而另一个执行分支所在的服务器就会因为任务持续存在,且数据量较大导致整个内存被严重占用,磁盘及IO也一直被负荷使用,可能导致内存溢出或者服务器资源状态异常的问题。本专利技术采用的技术方案如下:一种基于抽取的商业智能分析平台自动分区方法,包括带有spark引擎的商业智能分析平台、源数据库和目标数据库,包括以下步骤:S1、商业智能分析平台根据外部输入的抽取参数从源数据库读取对应的源表列的数据;S2、商业智能分析平台将步骤S1中读取源表列的数据处理为一列有序列数据;S3、商业智能分析平台对步骤S2中的有序列数据进行均分,得到至少1个分区数据;S4、商业智能分析平台将分区数据发送到spark引擎中;S5、spark引擎根据分区数据从源数据库抽取数据到目标数据库中。本方案基于商业智能分析平台的数据抽取功能,用户在数据集配置抽取功能将源数据抽取到商业智能分析平台数据库中,为避免spark引擎在每个执行分支数据倾斜导致处理缓慢甚至出现内存移除失败的情况,平台开发出对客户数据源抽取时自动设置分区,保障每个执行分支数据均衡,降低内存消耗与时效的手段。解决了现有的商业智能分析平台在利用spark引擎抽取数据时,spark引擎中不同的执行分支需要处理的数据量差距较大,经常出现一个执行分支已经处理完成了,另一个执行分支处理还不到一半的问题,那么完成任务后的执行分支就存在资源空闲,而另一个执行分支所在的服务器就会因为任务持续存在,且数据量较大导致整个内存被严重占用,磁盘及IO也一直被负荷使用,可能导致内存溢出或者服务器资源状态异常的问题。进一步的,所述步骤S1中外部输入的抽取参数包括:用户通过商业智能分析平台在数据集中通过数据集处理节点对数据源操作、数据抽取功能的配置及需要抽取的源表列的选择。进一步的,所述步骤S2中商业智能分析平台将步骤S1中读取源表列的数据处理为一列有序列数据的方法为:商业智能分析平台根据用户选择的源表列产生一条用于输出一列有序列数据的查询SQL,商业智能分析平台通过查询SQL从源数据库中获取一列有序列数据。进一步的,所述spark引擎包括至少2个执行分支。进一步的,所述每个执行分支对应的分区数据的数量相同。进一步的,所述分区数据的数量与执行分支的数量相同。进一步的,所述执行分支的处理能力不同时,与执行分支对应的分区数据大小与执行分支的处理能力正相关。采用上述方案,进一步保证了spark引擎中不同的执行分支需要处理的数据量基本相同,使整个方法工作效率最高。进一步的,所述步骤S4中商业智能分析平台通过SaeLauncher将分区数据作为spark任务动态提交到spark引擎。一种基于抽取的商业智能分析平台自动分区装置,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令,实现如权利要求1所述的一种基于抽取的商业智能分析平台自动分区方法。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1.本专利技术一种基于抽取的商业智能分析平台自动分区方法及装置,解决了现有的商业智能分析平台在利用spark引擎抽取数据时,spark引擎中不同的执行分支需要处理的数据量差距较大,经常出现一个执行分支已经处理完成了,另一个执行分支处理还不到一半的问题,那么完成任务后的执行分支就存在资源空闲,而另一个执行分支所在的服务器就会因为任务持续存在,且数据量较大导致整个内存被严重占用,磁盘及IO也一直被负荷使用,可能导致内存溢出或者服务器资源状态异常的问题;2.本专利技术一种基于抽取的商业智能分析平台自动分区方法及装置,本方案可以平衡了spark资源执行,降低了因为内存移除导致的失败任务,减少了整体抽取时间,减少某一spark执行分支在某台服务器读资源产生的IO,保证系统平稳运行,提升用户感知。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1是本专利技术的自动分区表数据转换流程示意图;图2是本专利技术的计算流程示意图;图3是现有方案的计算流程示意图。具体实施方式本说明书中公开的所有特本文档来自技高网
...

【技术保护点】
1.一种基于抽取的商业智能分析平台自动分区方法,包括带有spark引擎的商业智能分析平台、源数据库和目标数据库,其特征在于:包括以下步骤:/nS1、商业智能分析平台根据外部输入的抽取参数从源数据库读取对应的源表列的数据;/nS2、商业智能分析平台将步骤S1中读取源表列的数据处理为一列有序列数据;/nS3、商业智能分析平台对步骤S2中的有序列数据进行均分,得到至少1个分区数据;/nS4、商业智能分析平台将分区数据发送到spark引擎中;/nS5、spark引擎根据分区数据从源数据库抽取数据到目标数据库中。/n

【技术特征摘要】
1.一种基于抽取的商业智能分析平台自动分区方法,包括带有spark引擎的商业智能分析平台、源数据库和目标数据库,其特征在于:包括以下步骤:
S1、商业智能分析平台根据外部输入的抽取参数从源数据库读取对应的源表列的数据;
S2、商业智能分析平台将步骤S1中读取源表列的数据处理为一列有序列数据;
S3、商业智能分析平台对步骤S2中的有序列数据进行均分,得到至少1个分区数据;
S4、商业智能分析平台将分区数据发送到spark引擎中;
S5、spark引擎根据分区数据从源数据库抽取数据到目标数据库中。


2.根据权利要求1所述的一种基于抽取的商业智能分析平台自动分区方法,其特征在于:所述步骤S1中外部输入的抽取参数包括:用户通过商业智能分析平台在数据集中通过数据集处理节点对数据源操作、数据抽取功能的配置及需要抽取的源表列的选择。


3.根据权利要求1所述的一种基于抽取的商业智能分析平台自动分区方法,其特征在于:所述步骤S2中商业智能分析平台将步骤S1中读取源表列的数据处理为一列有序列数据的方法为:商业智能分析平台根据用户选择的源表列产生一条用于输出一列有序列数据的查询SQL,商业智能分析平台通过查询SQL从源数据库中获取...

【专利技术属性】
技术研发人员:赵神州费滔王纯斌赖文文
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1