一种多维大数据清洗方法和系统技术方案

技术编号:37967252 阅读:8 留言:0更新日期:2023-06-30 09:42
本说明书实施例提供了一种多维大数据清洗方法,包括:从原始数据中获取样本数据;对所述样本数据处理,获取样本数据中的数据特征;基于所述样本数据和所述数据特征对脏数据识别模型进行训练;基于训练好的所述脏数据识别模型确定原始数据中的脏数据,对所述原始数据中的脏数据进行修正;基于获得的所述原始数据中的脏数据和修正后的数据,更新所述样本数据;基于更新后的样本数据,对所述脏数据识别模型中的参数进行调整。还提供了一种多维大数据清洗系统,包括:样本数据抽取模块;样本数据处理模块;脏数据识别模型训练模块;数据清洗模块;样本数据更新模块和参数调整模块。样本数据更新模块和参数调整模块。样本数据更新模块和参数调整模块。

【技术实现步骤摘要】
一种多维大数据清洗方法和系统


[0001]本说明书涉及数据处理
,特别涉及多维大数据清洗方法和系统。

技术介绍

[0002]随着技术的发展,现在几乎所有行业都会产生大量的数据。大数据可以来自各种来源,包括游戏、社交媒体、互联网搜索日志、金融交易数据、气象数据、医疗信息等。对大数据进行分析可以用来发现隐藏的模式、趋势和关联,并帮助企业、政府机构和其他组织更好地做出决策。但在业务中由于种种原因,例如数据损坏、数据重复录入、同步处理或无数据验证等操作而产生脏数据。这些脏数据会为对数据的进一步处理和分析和利用带来影响。
[0003]因此,亟需一种多维大数据清洗方法和系统,以提升数据清洗的准确度和效率,更好地实现数据处理效果。

技术实现思路

[0004]本说明书一个方面提供一种多维大数据清洗方法,包括:从原始数据中获取样本数据,所述原始数据和所述样本数据中包括清洁数据和脏数据;对所述样本数据处理,获取样本数据中的数据特征,其中所述数据特征包括元数据特征、数据类型特征、数据维度特征和脏数据特征,其中脏数据特征包括:脏数据类型特征、脏数据相关性特征;基于所述样本数据和所述数据特征对脏数据识别模型进行训练;基于训练好的所述脏数据识别模型确定原始数据中的脏数据,对所述原始数据中的脏数据进行修正;基于获得的所述原始数据中的脏数据和修正后的数据,更新所述样本数据;基于更新后的样本数据,对所述脏数据识别模型中的参数进行调整,所述参数为所述脏数据识别模型的回归系数矩阵。
[0005]本说明书另一个方面提供一种多维大数据清洗系统,包括:包括:样本数据获取模块,用于从数据库中的原始数据获取样本数据;样本数据处理模块,用于对所述样本数据进行处理,获取样本数据中的数据特征,其中所述数据特征包括元数据特征、数据类型特征、数据维度特征和脏数据特征,其中脏数据特征包括:脏数据类型特征、脏数据相关性特征;脏数据识别模型训练模块,用于基于所述处理后的样本数据训练脏数据识别模型;数据清洗模块,用于基于训练好的所述脏数据识别模型确定原始数据中的脏数据,对所述原始数据中的脏数据进行修正;样本数据更新模块,用于基于获得的所述原始数据中的脏数据和修正后的数据,更新所述样本数据;参数调整模块,用于基于更新后的样本数据,对所述脏数据识别模型中的参数进行调整,所述参数为所述脏数据识别模型的回归系数矩阵。
附图说明
[0006]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
[0007]图1是根据本说明书一些实施例所示的一种多维大数据清洗系统的应用场景示意
图;
[0008]图2是根据本说明书一些实施例所示的一种多维大数据清洗系统的示例性框图;
[0009]图3是根据本说明书一些实施例所示的一种数据清洗模块的示例性框图;
[0010]图4是根据本说明书一些实施例所示的一种多维大数据清洗方法的示例性流程图;
具体实施方式
[0011]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0012]应当理解,本说明书中所使用的“数据”、“数据源”、“数据集”等词均指数据相关概念,“属性”、“维度”是指数据中属性,可以替换使用。本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
[0013]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0014]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0015]图1是根据本说明书的一些实施例所示的多维大数据清洗系统的应用场景示意图。
[0016]应用场景100可以涉及多维大数据清洗的各种业务场景,例如游戏日志数据清洗、社交网络日志数据清洗、机器学习模型训练数据清洗等。企业在业务中形成的巨量的大数据,为了利用这些巨量的大数据,企业通常会使用分析工具对业务大数据进行分析,来判断当前业务或系统状态,并基于业务数据规划企业将来的业务。企业通常还会使用机器学习和深度学习等技术,以便从业务数据中发掘用户关系,预测用户行为并向用户推荐感兴趣信息。
[0017]在各种业务应用中,数据录入和存储的过程中会产生大量的数据,这些数据包括大量的正常数据和部分少量的脏数据。例如,在物联网技术中由于网络传输中断或信号异常造成数据信息缺失和错误。又如,在社交网路中由于用户录入错误产生的脏数据等。在数据的存储、传输、合并和筛选处理等过程中也可能造成数据信息的损失,例如数据的属性和对应的键值缺失等问题。
[0018]不可避免的,大数据中的脏数据会对企业业务数据分析和业务预测产生影响。如果采用包含脏数据的数据样本来对机器学习模型训练同样也会影响模型训练的效果,例
如,降低模型的收敛速度、降低模型的召回率和精确率等。数据库中的大数据采用普通的逻辑处理来清洗往往效率较低,尤其是处理高维数据的情况下,且易遗漏脏数据。因此,希望能够提升数据清洗的效率和效果,得到更好的清洗后数据用于数据分析和模型训练。
[0019]有鉴于此,本说明书提供了一种多维大数据清洗方法和系统,包括:从原始数据中获取样本数据;对所述样本数据处理,获取样本数据中的数据特征;基于所述样本数据和所述数据特征对脏数据识别模型进行训练;基于训练好的所述脏数据识别模型确定原始数据中的脏数据,对所述原始数据中的脏数据进行修正;基于获得的所述原始数据中的脏数据和修正后的数据,更新所述样本数据;基于更新后的样本数据,对所述脏数据识别模型中的参数进行调整。通过本说明书的多维大数据清洗方法,可以通过对原始数据的随机抽样得到样本数据来训练模型可以得到脏数据识别模型,该模型可以对原始数据中的脏数据进行高效识别和清洗,还可以通过对样本数据处理比如过滤、转换和降维以及对样本数据的离散化来提高脏数据识别模型的训练效率,以及通过将确定的原始数据的脏数据加入样本数据更新模型的参数,提高模型识别脏数据的精度。
[0020]如图1所示,多维大数据清洗系统的应用场本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多维大数据清洗方法,包括:从原始数据中获取样本数据,所述原始数据和所述样本数据中包括清洁数据和脏数据;对所述样本数据处理,获取样本数据中的数据特征,其中所述数据特征包括元数据特征、数据类型特征、数据维度特征和脏数据特征,其中脏数据特征包括:脏数据类型特征、脏数据相关性特征;基于所述样本数据和所述数据特征对脏数据识别模型进行训练;基于训练好的所述脏数据识别模型确定所述原始数据中的脏数据,对所述原始数据中的脏数据进行修正;基于获得的所述原始数据中的脏数据和修正后的数据,更新所述样本数据;基于更新后的样本数据,对所述脏数据识别模型中的参数进行调整,所述参数为所述脏数据识别模型的回归系数矩阵。2.如权利要求1所述的方法,其特征在于,对所述样本数据处理,包括对所述样本数据进行过滤和转换,得到处理后的样本数据,其中,对所述样本数据的转换包括:对所述样本数据进行数值转换、归一化处理和降维处理。3.如权利要求1所述的方法,其特征在于,对所述样本数据处理,包括对所述样本数据的离散化处理。4.如权利要求1所述的方法,其特征在于,对所述样本数据处理,还包括:对离散化后的样本数据进行特征编码,所述特征编码计算公式为:其中,i为样本数据经过离散化后的分组,WOE
i
为对应分组的权重,py
i
为所述样本数据中的正常数据离散化后的比值,pn
i
为所述样本数据中的脏数据离散化后的比值。5.如权利要求1所述的方法,其特征在于,对所述脏数据进行修正包括:基于所述样本数据中统计学指标来修正所述脏数据;或基于k近邻算法将所述脏数据修正为与其向量距离最近的值;或基于所述相关系数和预设阈值的比较结果,基于其他属性数据,确定修正后的数据。6.一种多维大数据清洗系统,包括:样本数据获取模块,用于从数据库中的原始数据获取样本数据;样本数据处理模...

【专利技术属性】
技术研发人员:王潇王浩南胡雄周林谢旭李胜豪刘余廖永明李冬王雄刘朝燕
申请(专利权)人:重庆见芒信息技术咨询服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1