一种数据处理方法和装置制造方法及图纸

技术编号:15792114 阅读:312 留言:0更新日期:2017-07-09 23:23
本发明专利技术提供了一种数据处理方法和装置,其中,该方法通过从外部的至少两个数据源分别提取至少一条数据记录;对至少一条数据记录进行数据集成,生成数据集;将数据集进行数据转换,形成具有统一数据格式的目标数据集;对目标数据集进行数据异常检测,生成待处理数据集;合并待处理数据集中重复的数据记录,生成共享数据集;将共享数据集装载到预先创建的共享数据库,以将共享数据集共享给外部的用户。该方法对不同数据源的数据进行统一处理,提高了数据的处理效率。

【技术实现步骤摘要】
一种数据处理方法和装置
本专利技术涉及数据处理
,特别涉及一种数据处理方法和装置。
技术介绍
随着云计算技术的不断发展,产生了海量的数据。如何对海量的数据进行整合以作为决策的参考,是人们一直关心的问题。在实际应用场景中,人们常常需要从不同的数据源提取数据,并分别对每一个数据源中的数据进行处理。例如,分别从A、B、C三个数据源提取数据A1、B1、C1,分别对数据A1、B1、C1进行格式转换、异常检测等处理。但是,现有的方法需要对每一个数据源提取的数据分别进行处理,数据的处理效率较低。
技术实现思路
本专利技术实施例提供了一种数据处理方法和装置,能够提高数据的处理效率。第一方面,本专利技术实施例提供了一种数据处理方法,包括:从外部的至少两个数据源分别提取至少一条数据记录;对所述至少一条数据记录进行数据集成,生成数据集;将所述数据集进行数据转换,形成具有统一数据格式的目标数据集;对所述目标数据集进行数据异常检测,生成待处理数据集;合并所述待处理数据集中重复的数据记录,生成共享数据集;将所述共享数据集装载到预先创建的共享数据库,以将所述共享数据集共享给外部的用户。优选地,所述合并所述待处理数据集中重复的数据记录,生成共享数据集,包括:确定至少一个排序关键字;根据所述至少一个排序关键字,对所述待处理数据集中的数据记录进行排序;根据所述待处理数据集中的所述数据记录的顺序,合并重复的所述数据记录,生成所述共享数据集。优选地,进一步包括:预先设置滑动窗口;所述根据所述待处理数据集中的所述数据记录的顺序,合并重复的所述数据记录,生成所述共享数据集,包括:S0:确定所述滑动窗口在排序后的所述数据记录中的初始位置,使得排序后的所述数据记录中第一位的所述数据记录位于所述滑动窗口中;S1:确定所述滑动窗口中的当前数据记录;S2:判断所述当前数据记录中是否存在相同的所述数据记录,如果是,将相同的所述数据记录进行合并,并执行S3,否则,执行S4;S3:判断排在最后一位的所述数据记录是否在所述滑动窗口中,如果是,根据合并后的所述数据记录,生成所述共享数据集,否则,执行S4;S4:按照所述数据记录的顺序,将所述滑动窗口向后滑动一位,并执行S1。优选地,进一步包括:预先设置排序关键字与标记值的映射关系;所述根据所述至少一个排序关键字,对所述待处理数据集中的数据记录进行排序,包括:针对每一个所述数据记录,执行:确定所述待处理数据集中的当前数据记录包含的至少一个目标排序关键字;根据所述映射关系,确定每个所述目标排序关键字对应的目标标记值;将所述至少一个目标排序关键字对应的所述目标标记值之和作为所述数据记录的总标记值;根据所述待处理数据集中的每个所述数据记录的总标记值的大小,对所述待处理数据集中的所述数据记录进行排序。优选地,所述将所述共享数据集装载到预先创建的共享数据库,包括:针对每一个所述数据记录,执行:判断所述共享数据集中的当前数据记录是否为预先创建的所述共享数据库中已有的数据记录,如果是,为所述共享数据集中的所述当前数据记录添加时间戳,将携带所述时间戳的所述共享数据集中的所述当前数据记录装载到所述共享数据库,否则,将所述共享数据集中的所述当前数据记录装载到所述共享数据库。第二方面,本专利技术实施例提供了一种数据处理装置,包括:处理单元,用于从外部的至少两个数据源分别提取至少一条数据记录;对所述至少一条数据记录进行数据集成,生成数据集;将所述数据集进行数据转换,形成具有统一数据格式的目标数据集;对所述目标数据集进行数据异常检测,生成待处理数据集;合并单元,用于合并所述处理单元生成的所述待处理数据集中重复的数据记录,生成共享数据集;装载单元,用于将所述合并单元生成的所述共享数据集装载到预先创建的共享数据库,以将所述共享数据集共享给外部的用户。优选地,所述合并单元,包括:确定子单元,用于确定至少一个排序关键字;排序子单元,用于根据所述确定子单元确定的所述至少一个排序关键字,对所述待处理数据集中的数据记录进行排序;合并子单元,用于根据所述待处理数据集中的所述数据记录的顺序,合并重复的所述数据记录,生成所述共享数据集。优选地,进一步包括:设置单元,用于设置滑动窗口;所述合并子单元,包括:第一确定模块,用于确定所述设置单元设置的所述滑动窗口在排序后的所述数据记录中的初始位置,使得排序后的所述数据记录中第一位的所述数据记录位于所述滑动窗口中;第二确定模块,用于确定所述滑动窗口中的当前数据记录;第一判断模块,用于判断所述当前数据记录中是否存在相同的所述数据记录,如果是,将相同的所述数据记录进行合并,并触发第二判断模块,否则,触发滑动模块;所述第二判断模块,用于判断排在最后一位的所述数据记录是否在所述滑动窗口中,如果是,根据合并后的所述数据记录,生成所述共享数据集,否则,触发所述滑动模块;所述滑动模块,用于按照所述数据记录的顺序,将所述滑动窗口向后滑动一位,并触发所述第二确定模块。优选地,所述设置单元,进一步用于设置排序关键字与标记值的映射关系;所述排序子单元,用于针对每一个所述数据记录,执行:确定所述待处理数据集中的当前数据记录包含的至少一个目标排序关键字;根据所述设置单元设置的所述映射关系,确定每个所述目标排序关键字对应的目标标记值;将所述至少一个目标排序关键字对应的所述目标标记值之和作为所述数据记录的总标记值;根据所述待处理数据集中的每个所述数据记录的总标记值的大小,对所述待处理数据集中的所述数据记录进行排序。优选地,所述装载单元,用于针对每一个所述数据记录,执行:判断所述共享数据集中的当前数据记录是否为预先创建的所述共享数据库中已有的数据记录,如果是,为所述共享数据集中的所述当前数据记录添加时间戳,将携带所述时间戳的所述共享数据集中的所述当前数据记录装载到所述共享数据库,否则,将所述共享数据集中的所述当前数据记录装载到所述共享数据库。本专利技术实施例提供了一种数据处理方法和装置,其中,该方法通过数据集成将从不同数据源提取的数据记录统一成一个数据集,对数据集进行数据转化、数据异常检测、合并重复数据记录等处理,得到共享数据集,以使用户可以通过共享数据集获取不同数据源的数据记录。该方法不需要对不同数据源的数据记录分别进行处理,提高了数据的处理效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种数据处理方法流程图;图2是本专利技术另一个实施例提供的一种数据处理方法流程图;图3是本专利技术一个实施例提供的一种数据处理装置结构示意图;图4是本专利技术另一个实施例提供的一种数据处理装置结构示意图;图5是本专利技术又一个实施例提供的一种数据处理装置结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其本文档来自技高网...
一种数据处理方法和装置

【技术保护点】
一种数据处理方法,其特征在于,包括:从外部的至少两个数据源分别提取至少一条数据记录;对所述至少一条数据记录进行数据集成,生成数据集;将所述数据集进行数据转换,形成具有统一数据格式的目标数据集;对所述目标数据集进行数据异常检测,生成待处理数据集;合并所述待处理数据集中重复的数据记录,生成共享数据集;将所述共享数据集装载到预先创建的共享数据库,以将所述共享数据集共享给外部的用户。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:从外部的至少两个数据源分别提取至少一条数据记录;对所述至少一条数据记录进行数据集成,生成数据集;将所述数据集进行数据转换,形成具有统一数据格式的目标数据集;对所述目标数据集进行数据异常检测,生成待处理数据集;合并所述待处理数据集中重复的数据记录,生成共享数据集;将所述共享数据集装载到预先创建的共享数据库,以将所述共享数据集共享给外部的用户。2.根据权利要求1所述的方法,其特征在于,所述合并所述待处理数据集中重复的数据记录,生成共享数据集,包括:确定至少一个排序关键字;根据所述至少一个排序关键字,对所述待处理数据集中的数据记录进行排序;根据所述待处理数据集中的所述数据记录的顺序,合并重复的所述数据记录,生成所述共享数据集。3.根据权利要求2所述的方法,其特征在于,进一步包括:预先设置滑动窗口;所述根据所述待处理数据集中的所述数据记录的顺序,合并重复的所述数据记录,生成所述共享数据集,包括:S0:确定所述滑动窗口在排序后的所述数据记录中的初始位置,使得排序后的所述数据记录中第一位的所述数据记录位于所述滑动窗口中;S1:确定所述滑动窗口中的当前数据记录;S2:判断所述当前数据记录中是否存在相同的所述数据记录,如果是,将相同的所述数据记录进行合并,并执行S3,否则,执行S4;S3:判断排在最后一位的所述数据记录是否在所述滑动窗口中,如果是,根据合并后的所述数据记录,生成所述共享数据集,否则,执行S4;S4:按照所述数据记录的顺序,将所述滑动窗口向后滑动一位,并执行S1。4.根据权利要求2所述的方法,其特征在于,进一步包括:预先设置排序关键字与标记值的映射关系;所述根据所述至少一个排序关键字,对所述待处理数据集中的数据记录进行排序,包括:针对每一个所述数据记录,执行:确定所述待处理数据集中的当前数据记录包含的至少一个目标排序关键字;根据所述映射关系,确定每个所述目标排序关键字对应的目标标记值;将所述至少一个目标排序关键字对应的所述目标标记值之和作为所述数据记录的总标记值;根据所述待处理数据集中的每个所述数据记录的总标记值的大小,对所述待处理数据集中的所述数据记录进行排序。5.根据权利要求1-4中任一所述的方法,其特征在于,所述将所述共享数据集装载到预先创建的共享数据库,包括:针对每一个所述数据记录,执行:判断所述共享数据集中的当前数据记录是否为预先创建的所述共享数据库中已有的数据记录,如果是,为所述共享数据集中的所述当前数据记录添加时间戳,将携带所述时间戳的所述共享数据集中的所述当前数据记录装载到所述共享数据库,否则,将所述共享数据集中的所述当前数据记录装载到所述共享数据库。6.一种数据处理装置,其特征在于,包括:处理单元,用于从外...

【专利技术属性】
技术研发人员:崔金梦唐旋王传超
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1