数据导出方法和装置制造方法及图纸

技术编号:15437274 阅读:107 留言:0更新日期:2017-05-25 19:26
本发明专利技术涉及一种数据导出方法和装置。上述方法包括以下步骤:创建任务,并在所述任务中新增数据处理流程;在所述数据处理流程中指定数据源;生成与所述指定的数据源对应的指令,并将所述指令转换为所述任务中的流程节点;根据所述流程节点执行所述任务,并输出结果数据。上述数据导出方法和装置,能够自动协调和控制整个数据提取任务在不同数据源之间的数据流转,用户通过简单的操作即可获取所需数据,降低了操作难度,节约了人力、时间等资源,提高了执行效率。

Data export method and device

The invention relates to a data export method and device. The method comprises the following steps: create new tasks, and data processing in the task; in the data processing of the specified data source in the process; and generate the specified data source corresponding to the instructions and converts the instructions for the process node of the task; according to the execution process node the task, and output data. The data output method and device can automatically coordinate and control the entire data extraction tasks between different data transfer, user access to data through a simple operation can be reduced, the operation difficulty, saves manpower, time and other resources, improve the efficiency of executive.

【技术实现步骤摘要】
数据导出方法和装置
本专利技术涉及数据处理
,特别是涉及一种数据导出方法和装置。
技术介绍
由科技驱动的当今世界,计算能力、网速和带宽不断的提升,电子设备更加普及,访问网络加便捷,用户产生的数据也随之增大。而在传统方式中,针对数据的不同特点,需要选取不同的数据处理框架,例如:HBase作为一个具有高可靠性、高性能、面向列、可伸缩等优秀特性的分布式存储系统,非常适用于动态数据结构的快速存储和查询;而Hive则适用于构建数据仓库,进行离线的海量数据分析等。由于数据处理框架种类繁多,且每个数据处理框架有其不同的访问规则,如果在进行数据分析时所需提取的数据分布在不同的框架中,需要手动提交各个框架产生的中间数据,并导入到另外的数据处理框架中进行下一步的处理,操作繁琐且浪费人力、时间等资源。
技术实现思路
基于此,有必要针对数据分析时操作繁琐且浪费人力、时间等资源问题,提供一种操作简单且能够节省人力和时间等资源的数据导出方法。此外,还有必要针对数据分析时操作繁琐且浪费人力、时间等资源问题,提供一种操作简单且能够节省人力和时间等资源的数据导出装置。一种数据导出方法,包括以下步骤:创建任务,并在所述任务中新增数据处理流程;在所述数据处理流程中指定数据源;生成与所述指定的数据源对应的指令,并将所述指令转换为所述任务中的流程节点;根据所述流程节点执行所述任务,并输出结果数据。在其中一个实施例中,所述数据导出方法还包括以下步骤:设置所述新增的数据处理流程的关联条件,使得所述新增的数据处理流程与所述任务中的其它数据处理流程关联。在其中一个实施例中,所述数据导出方法还包括:判断所述任务中的其它还未执行的数据处理流程与当前执行的数据处理流程是否关联;若关联,则将当前执行的数据处理流程生成的中间数据载入所述关联的数据处理流程中,使得所述关联的数据处理流程根据所述中间数据进行执行;输出所述任务中最后一个数据处理流程产生的结果数据,或输出所述任务中各个数据处理流程产生的中间数据。在其中一个实施例中,所述生成与所述指定的数据源对应的指令,并将所述指令转换为所述任务中的流程节点的步骤具体包括:检测所述数据处理流程中的数据源所使用的数据处理框架;根据所述数据处理框架生成对应的指令;根据预设的配置文件解析所述指令,将所述指令转化为流程节点;分配所述流程节点的顺序编号。在其中一个实施例中,所述根据所述流程节点执行所述任务的步骤具体包括:建立链表队列,将所述任务添加到链表队列中并进行加载;采用同步调度或异步调度的方式执行所述链表队列中的任务;读取所述任务的流程节点,并根据所述顺序编号调用所述流程节点逐一执行所述任务中的数据处理流程。一种数据导出装置,包括:创建模块,用于创建任务,并在所述任务中新增数据处理流程;指定模块,用于在所述数据处理流程中指定数据源;生成模块,用于生成与所述指定的数据源对应的指令,并将所述指令转换为所述任务中的流程节点;执行模块,用于根据所述流程节点执行所述任务,并输出结果数据。在其中一个实施例中,所述数据导出装置还包括:设置模块,用于设置所述新增的数据处理流程的关联条件,使得所述新增的数据处理流程与所述任务中的其它数据处理流程关联。在其中一个实施例中,所述数据导出装置还包括:判断模块,用于判断所述任务中的其它还未执行的数据处理流程与当前执行的数据处理流程是否关联;载入模块,用于当判断出所述任务中的其它还未执行的数据处理流程与当前执行的数据处理流程关联,则将当前执行的数据处理流程生成的中间数据载入所述关联的数据处理流程中,使得所述关联的数据处理流程根据所述中间数据进行执行;所述执行模块还用于输出所述任务中最后一个数据处理流程产生的结果数据,或输出所述任务中各个数据处理流程产生的中间数据。在其中一个实施例中,所述生成模块包括:检测单元,用于检测所述数据处理流程中的数据源所使用的数据处理框架;生成单元,用于根据所述数据处理框架生成对应的指令;转化单元,用于根据预设的配置文件解析所述指令,将所述指令转化为流程节点;分配单元,用于分配所述流程节点的顺序编号。在其中一个实施例中,所述执行模块包括:建立单元,用于建立链表队列,将所述任务添加到链表队列中并进行加载;执行单元,用于采用同步调度或异步调度的方式执行所述链表队列中的任务;读取单元,用于读取所述任务的流程节点,并根据所述顺序编号调用所述流程节点逐一执行所述任务中的数据处理流程。上述数据导出方法和装置,通过指定数据处理流程的数据源,生成与数据源对应的指令,并将指令转化为流程节点进行执行任务,能够自动协调和控制整个数据提取任务在不同数据源之间的数据流转,用户通过简单的操作即可获取所需数据,降低了操作难度,节约了人力、时间等资源,提高了执行效率。附图说明图1为一个实施例中数据导出方法的流程示意图;图2为一个实施例中将指令转换为任务的流程节点的流程示意图;图3为一个实施例中任务执行时的状态示意图;图4为一个实施例中数据导出方法及装置的操作界面示意图;图5为一个实施例中数据导出装置的结构示意图;图6为一个实施例中生成模块的内部结构示意图;图7为一个实施例中执行模块的内部结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,一种数据导出方法,包括以下步骤:步骤S110,创建任务,并在任务中新增数据处理流程。具体的,通过操作接口接收用户的操作指令,并根据该操作指令创建任务,操作接口可以是浏览器、客户端等形式的具有图形化界面的操作窗口。通过新增数据处理流程,可以指定数据源、所需的数据项等,对所需的数据进行提取处理。步骤S120,在数据处理流程中指定数据源。具体的,通过指定数据源可指定提取何处的数据,每个数据源都有一个特定标识,表示该数据来源于何处,例如来自本地数据,来自Hadoop分布式文件系统的数据,或是来自于其它能够提供数据的平台。每个数据源的数据处理框架可能相同或不同,不同的数据处理框架能够针对不同特点的数据进行存储、获取、处理及分析等,例如HBase、Hive、Spark、Storm等数据处理框架,其中,HBase作为一个具有高可靠性、高性能、面向列、可伸缩等优秀特性的分布式存储系统,非常适用于动态数据结构的快速存储和查询;Hive则适用于构建数据仓库,进行离线的海量数据分析等;Spark既能够提供交互式查询,还可以优化迭代工作负载,且适用于某些需要历史数据和实时数据联合分析的特定应用场合;Storm则适用于实时数据的分析和计算等。除了指定数据源外,还可指定数据项,数据项一般可包括数据存储位置、数据查询时间范围、数据类型及过滤条件等,例如可指定提取某游戏产品2015年3月至2015年6月期间用户的消费金额总数、最大消费金额等数据。步骤S130,生成与指定的数据源对应的指令,并将指令转换为任务中的流程节点。具体的,在一个实施例中,如图2所示,步骤生成与指定的数据源对应的指令,并将指令转换为任务中的流程节点,具体包括以下步骤:步骤S210,检测数据处理流程中的数据源所使用的数据处理框架。具体的,指定的数据源中的数据处本文档来自技高网...
数据导出方法和装置

【技术保护点】
一种数据导出方法,其特征在于,包括以下步骤:创建任务,并在所述任务中新增数据处理流程;在所述数据处理流程中指定数据源;生成与所述指定的数据源对应的指令,并将所述指令转换为所述任务中的流程节点;根据所述流程节点执行所述任务,并输出结果数据。

【技术特征摘要】
1.一种数据导出方法,其特征在于,包括以下步骤:创建任务,并在所述任务中新增数据处理流程;在所述数据处理流程中指定数据源;生成与所述指定的数据源对应的指令,并将所述指令转换为所述任务中的流程节点;根据所述流程节点执行所述任务,并输出结果数据。2.根据权利要求1所述的数据导出方法,其特征在于,所述数据导出方法还包括以下步骤:设置所述新增的数据处理流程的关联条件,使得所述新增的数据处理流程与所述任务中的其它数据处理流程关联。3.根据权利要求2所述的数据导出方法,其特征在于,所述数据导出方法还包括:判断所述任务中的其它还未执行的数据处理流程与当前执行的数据处理流程是否关联;若关联,则将当前执行的数据处理流程生成的中间数据载入所述关联的数据处理流程中,使得所述关联的数据处理流程根据所述中间数据进行执行;输出所述任务中最后一个数据处理流程产生的结果数据,或输出所述任务中各个数据处理流程产生的中间数据。4.根据权利要求1或2所述的数据导出方法,其特征在于,所述生成与所述指定的数据源对应的指令,并将所述指令转换为所述任务中的流程节点的步骤具体包括:检测所述数据处理流程中的数据源所使用的数据处理框架;根据所述数据处理框架生成对应的指令;根据预设的配置文件解析所述指令,将所述指令转化为流程节点;分配所述流程节点的顺序编号。5.根据权利要求4所述的数据导出方法,其特征在于,所述根据所述流程节点执行所述任务的步骤具体包括:建立链表队列,将所述任务添加到链表队列中并进行加载;采用同步调度或异步调度的方式执行所述链表队列中的任务;读取所述任务的流程节点,并根据所述顺序编号调用所述流程节点逐一执行所述任务中的数据处理流程。6.一种数据导出装置,其特征在于,包括:创建模块,用于创建任务,并在所述任务中新增...

【专利技术属性】
技术研发人员:郑壮杰
申请(专利权)人:博雅网络游戏开发深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1