The present invention relates to the technical field of big data, and particularly relates to a method and a device for processing data, in order to solve the existing big data platform in data processing, can not guarantee the authenticity of the problem data, the method is by specifying the tool from the specified source extraction system and load the initial data set, and the initial data after loading the initial data set into several subsets, judge whether the current batch of initial subset of data need to modify the initial data, according to the initial data subset modified perform incremental merge operation, to obtain a subset of the corresponding target data, using the default number of business logic rules, target data contains for each target data subset obtained by the established relationship. So, big data platform specified by specifying the tool with the specified source system to achieve convergence, and even if the data is loaded into the After modifying the big data platform, we can still ensure data consistency through incremental merge operation, thus ensuring the authenticity of data and enhancing user experience.
【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术涉及大数据
,尤其涉及一种数据处理方法及装置。
技术介绍
大数据和互联网的高速发展,带来了爆发式增长的海量数据,以及各类提供数据的数据源系统,数据量的增大,基于传统数据架构的数据仓库越来越不堪重负,大数据平台的出现很好的解决了上述难题,目前应用范围较广的大数据平台有Hadoop平台、Storm平台、Spark平台等等。然而,并不是所有的数据源系统都能与不同大数据平台实现对接,例如,现有技术下,SAP源系统与Hadoop平台之间不能实现衔接,即,SAP源系统的数据不能被提取到Hadoop平台进行数据分析处理,而且,现有的Hadoop平台在进行数据分析处理时,采用的是一次性处理的处理方式,即,无论数据中途是否修改,只批量处理一次原始数据,因此,无法保证数据的真实性。有鉴于此,本专利技术实施例提供了一种新的数据处理方法,以克服上述缺陷。
技术实现思路
本专利技术实施例提供一种数据处理方法及装置,用以解决现有大数据平台在进行数据处理时,无法保证数据真实性的问题。本专利技术实施例提供的具体技术方案如下:第一方面,一种数据处理方法,包括:通 ...
【技术保护点】
一种数据处理方法,其特征在于,包括:通过至少一个指定工具,从指定源系统抽取初始数据集,并加载至指定大数据平台;将加载至所述指定大数据平台的初始数据集划分为若干初始数据子集,并针对每一初始数据子集执行以下操作:判断当前初始数据子集是否存在待修改的初始数据条;确定存在时,针对待修改的初始数据条对应的数据增量生成相应的增量表,并基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集;确定不存在时,将当前初始数据子集确定为目标数据子集;按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:通过至少一个指定工具,从指定源系统抽取初始数据集,并加载至指定大数据平台;将加载至所述指定大数据平台的初始数据集划分为若干初始数据子集,并针对每一初始数据子集执行以下操作:判断当前初始数据子集是否存在待修改的初始数据条;确定存在时,针对待修改的初始数据条对应的数据增量生成相应的增量表,并基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集;确定不存在时,将当前初始数据子集确定为目标数据子集;按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系。2.如权利要求1所述的方法,其特征在于,所述初始数据集包含结构化数据和非结构化数据,所述修改至少包括以下任意一种或组合:更新、删除和插入。3.如权利要求1或2所述的方法,其特征在于,基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集,包括:基于所述增量表包含的若干数据增量,修改所述当前初始数据子集中对应的初始数据条,获得相应的目标数据条;基于获得的目标数据条,以及未修改的初始数据条,获得目标数据子集。4.如权利要求3所述的方法,其特征在于,基于当前初始数据子集和所述增量表执行增量合并操作,获得目标数据子集之后,进一步包括:采用获得目标数据子集,替换已加载至所述指定大数据平台处对应的初始数据子集。5.如权利要求1所述的方法,其特征在于,按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系,包括:确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并基于所述主目标数据条和所述若干附目标数据条生成若干中间目标数据条,以及按照预设的业务逻辑规则,为所述若干中间目标数据条建立关联关系;或者,确定所述若干目标数据子集中存在的主目标数据条和若干附目标数据条,并按照预设的业务逻辑规则,直接为所述主目标数据条和所述若干附目标数据条建立关联关系。6.如权利要求1所述的方法,其特征在于,按照预设的业务逻辑规则,为获得的若干目标数据子集包含的若干目标数据条建立关联关系之后,进一步包括:按照业务分类,对已建立的各种关联关系进行整合分析,获得不同业务类别对应的分析结果,并将所得的分析结果展示给用户。7.一种数据处理装置,其特征在于,包括:加载单元,用于通过至少一个指定工具,从指定源系统抽取初始数据集,并加载至指定大数据平台;处理单元,用于将加载至所述指定大数据平台的初始数据集划分为若干初始数据子集,并针对每一初始数据子集执行以下操作:判断当前初始数据子集是否存在...
【专利技术属性】
技术研发人员:李红伟,
申请(专利权)人:新智云数据服务有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。