【技术实现步骤摘要】
一种数据处理方法和装置
本专利技术涉及数据处理
,特别涉及一种数据处理方法和装置。
技术介绍
随着云计算技术的不断发展,产生了海量的数据。如何对海量的数据进行整合以作为决策的参考,是人们一直关心的问题。在实际应用场景中,人们常常需要从不同的数据源提取数据,并分别对每一个数据源中的数据进行处理。例如,分别从A、B、C三个数据源提取数据A1、B1、C1,分别对数据A1、B1、C1进行格式转换、异常检测等处理。但是,现有的方法需要对每一个数据源提取的数据分别进行处理,数据的处理效率较低。
技术实现思路
本专利技术实施例提供了一种数据处理方法和装置,能够提高数据的处理效率。第一方面,本专利技术实施例提供了一种数据处理方法,包括:从外部的至少两个数据源分别提取至少一条数据记录;对所述至少一条数据记录进行数据集成,生成数据集;将所述数据集进行数据转换,形成具有统一数据格式的目标数据集;对所述目标数据集进行数据异常检测,生成待处理数据集;合并所述待处理数据集中重复的数据记录,生成共享数据集;将所述共享数据集装载到预先创建的共享数据库,以将所述共享数据集共享给外部的用户。优选地,所述合并所述待处理数据集中重复的数据记录,生成共享数据集,包括:确定至少一个排序关键字;根据所述至少一个排序关键字,对所述待处理数据集中的数据记录进行排序;根据所述待处理数据集中的所述数据记录的顺序,合并重复的所述数据记录,生成所述共享数据集。优选地,进一步包括:预先设置滑动窗口;所述根据所述待处理数据集中的所述数据记录的顺序,合并重复的所述数据记录,生成所述共享数据集,包括:S0:确定所述滑动 ...
【技术保护点】
一种数据处理方法,其特征在于,包括:从外部的至少两个数据源分别提取至少一条数据记录;对所述至少一条数据记录进行数据集成,生成数据集;将所述数据集进行数据转换,形成具有统一数据格式的目标数据集;对所述目标数据集进行数据异常检测,生成待处理数据集;合并所述待处理数据集中重复的数据记录,生成共享数据集;将所述共享数据集装载到预先创建的共享数据库,以将所述共享数据集共享给外部的用户。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:从外部的至少两个数据源分别提取至少一条数据记录;对所述至少一条数据记录进行数据集成,生成数据集;将所述数据集进行数据转换,形成具有统一数据格式的目标数据集;对所述目标数据集进行数据异常检测,生成待处理数据集;合并所述待处理数据集中重复的数据记录,生成共享数据集;将所述共享数据集装载到预先创建的共享数据库,以将所述共享数据集共享给外部的用户。2.根据权利要求1所述的方法,其特征在于,所述合并所述待处理数据集中重复的数据记录,生成共享数据集,包括:确定至少一个排序关键字;根据所述至少一个排序关键字,对所述待处理数据集中的数据记录进行排序;根据所述待处理数据集中的所述数据记录的顺序,合并重复的所述数据记录,生成所述共享数据集。3.根据权利要求2所述的方法,其特征在于,进一步包括:预先设置滑动窗口;所述根据所述待处理数据集中的所述数据记录的顺序,合并重复的所述数据记录,生成所述共享数据集,包括:S0:确定所述滑动窗口在排序后的所述数据记录中的初始位置,使得排序后的所述数据记录中第一位的所述数据记录位于所述滑动窗口中;S1:确定所述滑动窗口中的当前数据记录;S2:判断所述当前数据记录中是否存在相同的所述数据记录,如果是,将相同的所述数据记录进行合并,并执行S3,否则,执行S4;S3:判断排在最后一位的所述数据记录是否在所述滑动窗口中,如果是,根据合并后的所述数据记录,生成所述共享数据集,否则,执行S4;S4:按照所述数据记录的顺序,将所述滑动窗口向后滑动一位,并执行S1。4.根据权利要求2所述的方法,其特征在于,进一步包括:预先设置排序关键字与标记值的映射关系;所述根据所述至少一个排序关键字,对所述待处理数据集中的数据记录进行排序,包括:针对每一个所述数据记录,执行:确定所述待处理数据集中的当前数据记录包含的至少一个目标排序关键字;根据所述映射关系,确定每个所述目标排序关键字对应的目标标记值;将所述至少一个目标排序关键字对应的所述目标标记值之和作为所述数据记录的总标记值;根据所述待处理数据集中的每个所述数据记录的总标记值的大小,对所述待处理数据集中的所述数据记录进行排序。5.根据权利要求1-4中任一所述的方法,其特征在于,所述将所述共享数据集装载到预先创建的共享数据库,包括:针对每一个所述数据记录,执行:判断所述共享数据集中的当前数据记录是否为预先创建的所述共享数据库中已有的数据记录,如果是,为所述共享数据集中的所述当前数据记录添加时间戳,将携带所述时间戳的所述共享数据集中的所述当前数据记录装载到所述共享数据库,否则,将所述共享数据集中的所述当前数据记录装载到所述共享数据库。6.一种数据处理装置,其特征在于,包括:处理单元,用于从外...
【专利技术属性】
技术研发人员:崔金梦,唐旋,王传超,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。