当前位置: 首页 > 专利查询>高云专利>正文

应用于大数据挖掘和业务分析的数据清洗方法及云服务器技术

技术编号:28622934 阅读:68 留言:0更新日期:2021-05-28 16:18
本申请公开的应用于大数据挖掘和业务分析的数据清洗方法及云服务器,在对待清洗业务数据进行业务数据清洗时,能够结合业务数据挖掘信息实现,并且待清洗业务数据是对应的特定的数据交互场景的,因此在进行数据清洗过程中,能够考虑业务数据挖掘信息所对应的不同业务交互状态的用户业务需求信息,也就是说,在进行业务数据清洗时,能够充分考虑业务服务端的实际业务需求,这样一来,一方面可以提高数据清洗的准确性,避免遗留一些噪声数据或者脏数据,另一方面可以减少数据清洗的错误率,避免将一些重要的数据进行误清洗。如此,能够实现业务数据的快速、可靠清洗,从而确保清洗结果尽可能与业务服务端的大数据挖掘需求和业务分析需求匹配。

【技术实现步骤摘要】
应用于大数据挖掘和业务分析的数据清洗方法及云服务器
本申请涉及大数据
,特别涉及一种应用于大数据挖掘和业务分析的数据清洗方法及云服务器。
技术介绍
数据清洗(Datacleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。通俗地讲,数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是业务处理过程中不需要的,称为“脏数据”。一般而言,“脏数据”主要是有不完整的数据、错误的数据、重复的数据三大类。随着大数据时代的快速发展,大数据挖掘、大数据分析以及云业务处理通常处于协同运行的状态,数据服务器作为中间节点,不仅承担着数据传输的工作,同样还承担着数据清洗的工作,但是相关的数据清洗技术存在些许问题,比如数据清洗精准度较差,数据清洗结果难以满足实际业务需求等。本文档来自技高网...

【技术保护点】
1.一种应用于大数据挖掘和业务分析的数据清洗方法,其特征在于,应用于云服务器,所述云服务器预先部署有网络模型,所述云服务器与业务服务端通信连接,用以向所述业务服务端输送完成清洗的业务数据,所述方法包括:/n基于多个第一样本业务数据以及多个第二样本业务数据进行模型训练,得到业务数据清洗模型;/n在获取到待清洗业务数据时,通过调用所述业务数据清洗模型,并根据所述业务数据清洗模型训练过程中得到的业务数据挖掘信息,对所述待清洗业务数据进行数据清洗,得到数据清洗结果;其中,所述待清洗业务数据对应一个数据交互场景。/n

【技术特征摘要】
1.一种应用于大数据挖掘和业务分析的数据清洗方法,其特征在于,应用于云服务器,所述云服务器预先部署有网络模型,所述云服务器与业务服务端通信连接,用以向所述业务服务端输送完成清洗的业务数据,所述方法包括:
基于多个第一样本业务数据以及多个第二样本业务数据进行模型训练,得到业务数据清洗模型;
在获取到待清洗业务数据时,通过调用所述业务数据清洗模型,并根据所述业务数据清洗模型训练过程中得到的业务数据挖掘信息,对所述待清洗业务数据进行数据清洗,得到数据清洗结果;其中,所述待清洗业务数据对应一个数据交互场景。


2.根据权利要求1所述的方法,其特征在于,基于多个第一样本业务数据以及多个第二样本业务数据进行模型训练,得到业务数据清洗模型,包括:
基于多个第一样本业务数据,对第一业务数据识别模型进行训练,得到第二业务数据识别模型;其中,所述多个第一样本业务数据包括多种数据交互场景下的业务数据,所述第二业务数据识别模型中包括所述多种数据交互场景对应的多个目标业务交互状态的用户业务需求信息;
基于多个第二样本业务数据,对所述第二业务数据识别模型进行训练,得到业务数据清洗模型;其中,所述多个第二样本业务数据为目标数据交互场景下的业务数据,训练过程中所述业务数据清洗模型获取得到所述多个第二样本业务数据的业务数据挖掘信息,所述多个第二样本业务数据的业务数据挖掘信息至少包括所述目标数据交互场景对应的多个目标业务交互状态的用户业务需求信息。


3.根据权利要求2所述的方法,其特征在于,在获取到待清洗业务数据时,通过调用所述业务数据清洗模型,并根据所述业务数据清洗模型训练过程中得到的业务数据挖掘信息,对所述待清洗业务数据进行数据清洗,得到数据清洗结果;其中,所述待清洗业务数据对应一个数据交互场景,包括:
当获取到待清洗的第一业务数据时,调用所述业务数据清洗模型,由所述业务数据清洗模型根据所述业务数据挖掘信息,对所述第一业务数据进行清洗,输出第二业务数据;其中,所述第一业务数据为所述目标数据交互场景下的业务数据。


4.根据权利要求3所述的方法,其特征在于,所述第一业务数据识别模型、所述第二业务数据识别模型和所述业务数据清洗模型均包括第一业务数据清洗网络和第二业务数据清洗网络,所述第一业务数据清洗网络和第二业务数据清洗网络分别对应于一种业务数据清洗策略,所述第一业务数据清洗网络用于对动态业务数据进行清洗,所述第二业务数据清洗网络用于对静态业务数据进行清洗;
相应地,由所述业务数据清洗模型根据所述业务数据挖掘信息,对所述第一业务数据进行清洗,输出第二业务数据,包括:
基于所述业务数据清洗模型中的第一业务数据清洗网络和第二业务数据清洗网络中至少一个网络,以及所述业务数据挖掘信息,对所述第一业务数据进行清洗,输出第二业务数据;
优选的,基于所述业务数据清洗模型中的第一业务数据清洗网络和第二业务数据清洗网络中至少一个网络,以及所述业务数据挖掘信息,对所述第一业务数据进行清洗,输出第二业务数据,包括:
根据所述第一业务数据的多维特征信息,对所述第一业务数据进行数据特征标记处理;
将数据特征标记处理后的第一业务数据输入所述第一业务数据清洗网络和第二业务数据清洗网络中至少一个网络中,由所述第一业务数据清洗网络和所述第二业务数据清洗网络中至少一个网络对所述第一业务数据进行清洗,得到第三业务数据;
基于所述业务数据挖掘信息,对所述第三业务数据进行数据挖掘分析处理,输出第二业务数据。


5.根据权利要求4所述的方法,其特征在于,所述根据所述第一业务数据的多维特征信息,对所述第一业务数据进行数据特征标记处理,包括:
当根据所述多维特征信息确定所述第一业务数据中存在异常数据字段时,将所述异常数据字段剔除;
当根据所述多维特征信息确定剔除异常数据字段后的第一业务数据的字段关系离散度大于目标离散度时,对所述第一业务数据进行缺失值填补处理,将所述第一业务数据的字段关系离散度调整为不大于目标离散度;
当根据所述多维特征信息确定所述第一业务数据的数据类型数量为多个时,根据目标全局类型识别度对所述第一业务数据的每个数据类型识别度进行调整;
当根据所述多维特征信息确定所述第一业务数据的聚类数量为多个时,将所述第一业务数据输入聚类特征标记网络,由所述聚类特征标记网络从所述第一业务数据的多个数据类型识别度进行标记,得到数据特征标记处理后的第一业务数据的目标数量的数据类型识别度,所述数据特征标记处理后的第一业务数据的聚类数量为设定数值。


6.根据权利要求4所述的方法,其特征在于,所述基于所述业务数据挖掘信息,对所述第三业务数据进行数据挖掘分析处理,输出第二业务数据,包括:
基于所述第三业务数据中的多个目标业务交互状态和所述业务数据挖掘信息所指示的所述多个目标业务交互状态的用户业务需求信息,对所述第三业务数据进行数据挖掘分析处理,得到第二业务数据,目标业务交互状态为所述第三业务数据中目标类型的数据字段所对应的业务交互状态,所述第二业务数据中多个目标业务交互状态的用户业务需求类型、目标业务交互状态的数量和目标业务交互状态的局部离散度与所述多个目标业务交互状态的用户业务需求信息对应;
优选的,所述基于所述第三业务数据中的多个目标业...

【专利技术属性】
技术研发人员:高云
申请(专利权)人:高云
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1