一种数据清洗方法、装置、可读介质及电子设备制造方法及图纸

技术编号:32560519 阅读:14 留言:0更新日期:2022-03-09 16:44
本发明专利技术公开了一种数据清洗方法、装置、可读介质及电子设备,包括:根据预设的范围参数确定目标数据点的邻域范围;并确定邻域范围内的邻域数据集合;所述邻域数据集合中包括至少一个邻域数据点;根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度;根据所述第一可达密度确定所述目标数据点的离群指数;当所述离群指数满足预设条件,则将所述目标数据点确定为离群数据点,并对所述离群数据点进行清洗处理。离群数据点进行清洗处理。离群数据点进行清洗处理。

【技术实现步骤摘要】
一种数据清洗方法、装置、可读介质及电子设备


[0001]本专利技术涉及数据分析领域,尤其涉及一种数据清洗方法、装置、可读介质及电子设备。

技术介绍

[0002]利用海洋潮流能发电,是一种可再生清洁能源。潮流海洋能具有永不枯竭、能量密度大、可预测性强等诸多优点,因此在近年来得到了广泛关注和大力发展,是新能源探索领域的一个热点。
[0003]在海洋潮流能发电的项目中,可以结合基于大数据和人工智能技术开发的物联网监控系统,从而更好的应对复杂的海洋环境,并全面的监控设备的工作状态。
[0004]可以理解的是,在海洋潮流能发电平台中采集得到的相关数据通常十分复杂,而且可能伴随有大量不准确的、异常的数据,将直接的影响到后续数据分析处理结果的准确性。现有技术中缺少一种针对性的数据清洗技术,以解决这一技术问题。

技术实现思路

[0005]本专利技术提供一种数据清洗方法、装置、可读介质及电子设备,通过计算确定离群数据点来实现对于异常数据的确定和清洗,提高了数据的准确性。
[0006]第一方面,本专利技术提供了一种数据清洗方法,包括:
[0007]根据预设的范围参数确定目标数据点的邻域范围;并确定邻域范围内的邻域数据集合;所述邻域数据集合中包括至少一个邻域数据点;
[0008]根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度;
[0009]根据所述第一可达密度确定所述目标数据点的离群指数;
[0010]当所述离群指数满足预设条件,则将所述目标数据点确定为离群数据点,并对所述离群数据点进行清洗处理。
[0011]优选地,所述目标数据点为P,所述范围参数为k,则所述根据预设的范围参数确定目标数据点的邻域范围,并确定邻域范围内的邻域数据集合包括:
[0012]确定第一数据点O0,并将目标数据点P到第一数据点O0的距离作为第一邻域距离;
[0013]以目标数据点P为圆心,以所述第一邻域距离为半径确定一个圆形范围;
[0014]以圆形范围作为所述邻域范围,并满足所述邻域范围内的第二数据点的数量至多为k-1个;
[0015]将所述第一数据点和第二数据点确定为邻域数据点;并根据所述邻域数据点建立邻域数据集合;
[0016]其中,k为正整数。
[0017]优选地,根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度包括:
[0018]确定各所述邻域数据点到所述目标数据点之间的可达距离;
[0019]根据各所述可达距离确定所述目标数据点的第一可达密度。
[0020]优选地,所述邻域数据点为O,则所述确定所述邻域数据点到所述目标数据点之间的可达距离包括:
[0021]确定邻域数据点O到目标数据点P的距离d(P,O);
[0022]确定邻域数据点O对应的第二邻域距离d
k
(O);
[0023]则所述邻域数据点到所述目标数据点之间的可达距离reach_dist(P,O)为,
[0024]reach_dist(P,O)=max{d(P,O),d
k
(O)}。
[0025]优选地,所述根据各所述可达距离确定所述目标数据点的第一可达密度包括:
[0026][0027]其中,lrd(P)代表所述目标数据点的第一可达密度;N
k
(P)代表所述邻域数据集合,|N
k
(P)|代表所述邻域数据集合中数据点的数量;O代表任一邻域数据点;代表各所述邻域数据点到所述目标数据点之间的可达距离之和。
[0028]优选地,所述根据所述第一可达密度确定所述目标数据点的离群指数包括:
[0029]确定各所述邻域数据点对应的第二可达密度;
[0030]根据所述第一可达密度和各所述第二可达密度,确定所述目标数据点的离群指数。
[0031]优选地,所述离群数据点进行清洗处理包括:
[0032]对所述离群数据点进行删除、视为空值、修正或忽略处理。
[0033]第二方面,本专利技术提供了一种数据清洗装置,包括:
[0034]邻域确定模块,用于根据预设的范围参数确定目标数据点的邻域范围;并确定邻域范围内的邻域数据集合;所述邻域数据集合中包括至少一个邻域数据点;
[0035]可达密度计算模块,用于根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度;
[0036]离群指数计算模块,用于根据所述第一可达密度确定所述目标数据点的离群指数;
[0037]清洗模块,用于在所述离群指数满足预设条件时,将所述目标数据点确定为离群数据点,并对所述离群数据点进行清洗处理。
[0038]第三方面,本专利技术提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的数据清洗方法。
[0039]第四方面,本专利技术提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的数据清洗方法。
[0040]本专利技术提供了一种数据清洗方法、装置、可读介质及电子设备,通过确定目标数据点的邻域范围并确定邻域数据点,进而计算得到目标数据点的离群指数;根据离群指数得已判断目标数据点是否为异常;当所述离群指数满足预设条件,则将所述目标数据点确定
为离群数据点,并对所述离群数据点进行清洗处理;由此实现了对于异常的数据点和筛选和处理,提高了数据的准确性,为后续的数据分析提供了良好的基础。
[0041]上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0042]为了更清楚地说明本专利技术实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0043]图1为本专利技术一实施例提供的一种数据清洗方法的流程示意图;
[0044]图2为本专利技术一实施例提供的一种数据清洗方法中领域范围的示意图;
[0045]图3为本专利技术一实施例提供的一种数据清洗装置的结构示意图;
[0046]图4为本专利技术一实施例提供的一种电子设备的结构示意图。
具体实施方式
[0047]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本专利技术的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0048]在海洋潮流能发电的项目中采集得到的相关数据通常十分复杂,而且可能伴随有大量不准确的、异常的数据,将直接的影响本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:根据预设的范围参数确定目标数据点的邻域范围;并确定邻域范围内的邻域数据集合;所述邻域数据集合中包括至少一个邻域数据点;根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度;根据所述第一可达密度确定所述目标数据点的离群指数;当所述离群指数满足预设条件,则将所述目标数据点确定为离群数据点,并对所述离群数据点进行清洗处理。2.根据权利要求1所述方法,其特征在于,所述目标数据点为P,所述范围参数为k,则所述根据预设的范围参数确定目标数据点的邻域范围,并确定邻域范围内的邻域数据集合包括:确定第一数据点O0,并将目标数据点P到第一数据点O0的距离作为第一邻域距离;以目标数据点P为圆心,以所述第一邻域距离为半径确定一个圆形范围;以圆形范围作为所述邻域范围,并满足所述邻域范围内的第二数据点的数量不超过k-1个;将所述第一数据点和第二数据点确定为邻域数据点;并根据所述邻域数据点建立邻域数据集合;其中,k为正整数。3.根据权利要求2所述方法,其特征在于,根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度包括:确定各所述邻域数据点到所述目标数据点之间的可达距离;根据各所述可达距离确定所述目标数据点的第一可达密度。4.根据权利要求3所述方法,其特征在于,所述邻域数据点为O,则所述确定所述邻域数据点到所述目标数据点之间的可达距离包括:确定邻域数据点O到目标数据点P的距离d(P,O);确定邻域数据点O对应的第二邻域距离d
k
(O);则所述邻域数据点到所述目标数据点之间的可达距离reach_dist(P,O)为,reach_dist(P,O)=max{d(P,O),d
k
(O...

【专利技术属性】
技术研发人员:姜孝谟林琳徐胜利
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1