The present invention provides a method for multiple parallel data processing method and device for processing frame, the method comprises the following steps: S1: obtaining configuration information of the environment; step S2: according to the use of the environment configuration information and the underlying data storage data attribute selection method call and call the corresponding underlying storage data, the underlying data storage and focus on the underlying storage data obtained through a unified format conversion method for data format conversion, unified format of abstract data set; step S3: the unified format of abstract data sets are provided to the application layer. The present invention according to the using environment configuration information and the underlying storage data storage type, select the data corresponding to the call and call the underlying storage data, and then through the unified format conversion method, the underlying storage data into a unified format of abstract data set and supplies the upper application, to further improve the scalability, parallel processing framework the versatility and ease of use.
【技术实现步骤摘要】
一种用于多并行处理框架的数据处理方法及装置
本专利技术涉及大数据多并行处理
,尤其涉及一种用于多并行处理框架的数据处理方法及装置。
技术介绍
目前,大数据技术的快速发展应用给现有技术带来了4V的挑战:规模(Volume),从万亿字节(TB)级到千万亿字节(PB)级甚至到十万亿亿字节(ZB)级别;种类(Variety),数据种类繁多,既包括传统的结构化数据又包括诸如文本、视频、图片和音频等非结构化数据,而且非结构化数据的比重在快速增加;价值(Value),数据价值密度低,难以进行预测分析、运营智能、决策支持等计算;速度(Velocity),大数据处理的速度问题愈发突出,时效性难以保证。总体来看,大数据处理技术的困境实质上是信息化设施的处理能力与数据处理的问题规模之间的矛盾,即目前的计算机系统无法有效处理PB级以上的大数据。大数据所表现出的增量速度快、时间局部性低等特点,使得以计算为中心的传统模式面临着内存容量有限、输入/输出(I/O)压力大、缓存命中率低、数据处理的总体性能低等诸多挑战,难以取得性能、能耗与成本的最佳平衡,大数据技术在制造业应用对现有的数据采集 ...
【技术保护点】
一种用于多并行处理框架的数据处理方法,其特征在于,包括以下步骤:步骤S1:获取使用环境的配置信息;步骤S2:根据所述使用环境的配置信息和底层存储数据属性选择相应的数据调用方法并调用底层存储数据,然后通过统一的格式转换方法对所获得的底层存储数据集中的底层存储数据进行数据格式转换,得到统一格式抽象数据集;其中,所述底层存储数据属性包括存储介质类型和存储位置信息;步骤S3:将所述统一格式抽象数据集提供给上层应用使用。
【技术特征摘要】
1.一种用于多并行处理框架的数据处理方法,其特征在于,包括以下步骤:步骤S1:获取使用环境的配置信息;步骤S2:根据所述使用环境的配置信息和底层存储数据属性选择相应的数据调用方法并调用底层存储数据,然后通过统一的格式转换方法对所获得的底层存储数据集中的底层存储数据进行数据格式转换,得到统一格式抽象数据集;其中,所述底层存储数据属性包括存储介质类型和存储位置信息;步骤S3:将所述统一格式抽象数据集提供给上层应用使用。2.根据权利要求1所述的数据处理方法,其特征在于,所述步骤S1具体包括:步骤S1.1:将使用环境的配置信息和用于获取所述配置信息的环境获取方法封装为第一个类;步骤S1.2:通过所述第一个类提供的所述环境获取方法获取使用环境的配置信息。3.根据权利要求2所述的数据处理方法,其特征在于,所述步骤S2具体包括:步骤S2.1:将所述底层存储数据属性、统一格式抽象数据集和用于获取底层存储数据属性的属性获取方法、用于底层存储数据调用操作的数据调用方法、用于格式转换操作的格式转换方法以及用于获取统一格式抽象数据集的结果获取方法封装为第二个类;步骤S2.2:通过所述属性获取方法获取所需的底层存储数据属性,其中,所述底层存储数据属性包括存储介质类型和存储位置信息;步骤S2.3:根据步骤S1获取的使用环境的配置信息和步骤S2.2获取的所述底层存储数据属性,确定数据调用方法,调取底层存储数据,并通过统一的格式转换方法对所获得的底层存储数据集中的底层存储数据进行数据格式转换,得到统一格式抽象数据集。4.根据权利要求3所述的数据处理方法,其特征在于,所述步骤S3具体为:通过步骤S2提供的所述结果获取方法获取所述统一格式抽象数据集,并将所述统一格式抽象数据集提供给上层应用使用。5.根据权利要求4所述的数据处理方法,其特征在于,所述统一格式抽象数据集...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。