数据填充方法及装置、设备、存储介质制造方法及图纸

技术编号:32436670 阅读:20 留言:0更新日期:2022-02-26 07:54
本申请公开了一种数据填充方法,包括:确定待处理数据集中的完整数据集和缺失数据集;根据特定的邻域半径和最小对象数目,为所述完整数据集中的第一数据对象,确定第二数据对象;根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离,在所述完整数据集中,确定所述第一数据对象的邻域集合;根据所述第一数据对象的邻域集合,对所述缺失数据集进行缺失值填充,得到目标数据集;如此利用可变的邻域集合替代传统固定的Eps邻域,自适应的根据数据的密集程度自动调整邻域大小,从而能够对非均匀数据集进行缺失值填充,提高了缺失值记录填充的准确性。本申请还同时提供了一种数据填充装置、设备及存储介质。设备及存储介质。设备及存储介质。

【技术实现步骤摘要】
数据填充方法及装置、设备、存储介质


[0001]本申请涉及数据挖掘领域,涉及但不限定于数据填充方法及装置、设备、存储介质。

技术介绍

[0002]传统的具有噪声的基于密度的聚类方法(Density-Based Spatial Clusteringof Applications with Noise,DBSCAN)填充算法只能填充均匀密度数据集,因为传统的DBSCAN算法使用固定的邻域半径进行聚类,可以对密度均匀的数据集有很好的聚类效果,但却不能处理非均匀密度数据集。
[0003]而现实的数据集往往是非均匀密度的,如果处理非均匀密度数据集,那么使用DBSCAN算法填充缺失值的正确率就会大大降低。亟需提出一种能够在均匀或非均匀密度数据集中正确识别类的改进的DBSCAN算法填充缺失值。

技术实现思路

[0004]有鉴于此,本申请为解决传统的DBSCAN填充方法不能处理非均匀密度数据集的问题而提供一种数据填充方法及装置、设备、存储介质,能够在均匀或非均匀密度数据集中正确识别类,从而更准确的填充缺失值,提高了缺失值填充的正确率。
[0005]本申请的技术方案是这样实现的:
[0006]第一方面,本申请提供一种数据填充方法,所述方法包括:
[0007]确定待处理数据集中的完整数据集和缺失数据集;
[0008]根据特定的邻域半径和最小对象数目,为所述完整数据集中的第一数据对象,确定第二数据对象;
[0009]根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离,在所述完整数据集中,确定所述第一数据对象的邻域集合;
[0010]根据所述第一数据对象的邻域集合,对所述缺失数据集进行缺失值填充,得到目标数据集。
[0011]第二方面,本申请提供一种数据填充装置,所述装置包括第一确定模块、第二确定模块、第三确定模块和填充模块,其中:
[0012]所述第一确定模块,用于确定待处理数据集中的完整数据集和缺失数据集;
[0013]所述第二确定模块,用于根据特定的邻域半径和最小对象数目,为所述完整数据集中的第一数据对象,确定第二数据对象;
[0014]所述第三确定模块,用于根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离,在所述完整数据集中,确定所述第一数据对象的邻域集合;
[0015]所述填充模块,用于根据所述第一数据对象的邻域集合,对所述缺失数据集进行缺失值填充,得到目标数据集。
[0016]第三方面,本申请提供一种数据填充设备,包括存储器和处理器,所述存储器存储
有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据填充方法中的步骤。
[0017]第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述数据填充方法中的步骤。
[0018]本申请提供的技术方案带来的有益效果至少包括:
[0019]在本申请中,首先,确定待处理数据集中的完整数据集和缺失数据集;然后,根据特定的邻域半径和最小对象数目,为所述完整数据集中的第一数据对象,确定第二数据对象;再根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离,在所述完整数据集中,确定所述第一数据对象的邻域集合;最后,根据所述第一数据对象的邻域集合,对所述缺失数据集进行缺失值填充,得到目标数据集;如此利用可变的邻域集合替代传统固定的Eps邻域,自适应的根据数据的密集程度自动调整邻域大小,从而能够对非均匀数据集进行缺失值填充,提高了缺失值记录填充的准确性。
附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
[0021]图1为本申请实施例提供的数据集的类别示意图;
[0022]图2为本申请实施例提供的一种数据填充方法的流程示意图;
[0023]图3为本申请实施例提供的另一种数据填充方法的流程示意图;
[0024]图4A为本申请实施例提供的数据集的类别示意图;
[0025]图4B为本申请实施例提供的一种数据填充方法的整体实现流程示意图;
[0026]图4C为本申请实施例提供的数据集的k-dist排序图;
[0027]图4D为本申请实施例提供的三角不等式在填充算法中应用示意图;
[0028]图5为本申请实施例提供的一种数据填充装置的组成结构示意图;
[0029]图6为本申请实施例提供的一种数据填充设备的硬件实体示意图。
具体实施方式
[0030]缺失值填充问题中,缺失值数据就是由于某些原因,使得记录的信息不完整,存在一些属性没有值,或者标记为空字符串,那么该条记录就是缺失值记录。在现实的数据库中,缺失值普遍存在,无论是生产领域还是科学研究领域,缺失值填充问题已成为数据预处理常见的问题。在医疗卫生领域,由于信息采集过程中存在很多不足,导致该领域的数据缺失非常严重,几乎高达60%左右。
[0031]现有针对缺失值填充问题的解决方案众多,DBSCAN算法作为聚类算法的重要成员,也常被用于填充缺失值,其填充缺失值的步骤是:首先将数据集按照数据的完整性分成两个子数据集,即完整数据集和缺失值数据集。完整数据集保存了整个数据集的整体信息,因此,对完整数据集进行聚类,得到若干个分类,然后再对缺失值数据集中的记录逐一的与这若干分类进行相似度比较,得到相似度最大的那个类标记缺失值记录,最后可以根据缺
失值记录所属类的信息计算出缺失值,从而得到完整的数据集。
[0032]传统的DBSCAN填充算法只能填充均匀密度数据集,因为传统的DBSCAN 算法使用固定的Eps邻域半径进行聚类,可以对密度均匀的数据集有很好的聚类效果,但却不能处理非均匀密度数据集。
[0033]而现实的数据集往往是非均匀密度的,如果处理非均匀密度数据集,那么使用DBSCAN算法填充缺失值的正确率就会大大降低,DBSCAN算法在选取邻域半径参数时,如果选取的邻域半径Eps过大,会将噪点划分到类中,识别不了噪点,也会将两个高密度的类划分到一类中。但如果选取的邻域半径Eps过小,那么密度较小的类就无法识别,并且会被标记为噪点,影响聚类的质量。
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0035]本申请实施例提供一种数据填充方法,图1为本申请实施例提供的一种数据填充方法的流程示意图,如图1所示,所述方法包括:
[0036]步骤S110,确定待处理数据集中的完整数据集和缺失数据集。
[0037]这里,首先将待处理数据集按照数据的完整性分成两个子数据集,即完整数据集和缺失值数据集。所述完整数据集,保存有完整数据集的整体信息;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据填充方法,其特征在于,所述方法包括:确定待处理数据集中的完整数据集和缺失数据集;根据特定的邻域半径和最小对象数目,为所述完整数据集中的第一数据对象,确定第二数据对象;根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离,在所述完整数据集中,确定所述第一数据对象的邻域集合;根据所述第一数据对象的邻域集合,对所述缺失数据集进行缺失值填充,得到目标数据集。2.如权利要求1所述的方法,其特征在于,所述最小对象数目为所述邻域半径内至少包括的数据对象的数目MinPts,所述根据特定的邻域半径和最小对象数目,为所述完整数据集中的第一数据对象,确定第二数据对象,包括:在以所述第一数据对象的邻域半径范围内,确定离所述第一数据对象第MinPts个最近的第二数据对象。3.如权利要求1或2所述的方法,其特征在于,所述根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离,在所述完整数据集中,确定所述第一数据对象的邻域集合,包括:确定所述邻域半径和所述第一距离之间的最小值;在所述完整数据集中,将与所述第一数据对象的距离小于等于所述最小值的数据对象的集合,作为所述第一数据对象的邻域集合。4.如权利要求1所述的方法,其特征在于,所述根据所述第一数据对象的邻域集合,对所述缺失数据集进行缺失值填充,得到目标数据集,包括:根据所述第一数据对象的邻域集合,将所述完整数据集进行聚类,得到不同类别的数据子集;根据所述缺失数据集中的记录对象与所述不同类别的数据子集的中心之间的第二距离,对所述缺失数据集进行缺失值填充;将所述填充后的缺失数据集和所述完整数据集合并,得到所述目标数据集。5.如权利要求4所述的方法,其特征在于,所述根据所述第一数据对象的邻域集合,将所述完整数据集进行聚类,得到不同类别的数据子集,包括:根据所述第一数据对象的邻域集合,确定所述完整数据集中的至少一个强连通分量;根据所述至少一个强连通分量中,每个强连通分量所包括数据对象的个数,确定所述每个强连通分量的类别;按照所述每个强连通分量的类别,对所述完整数据集进行聚类,得到不同类别的数据子集。6.如权利要求5所述的方法,其特征在于,所述第一数据对象为核心对象,其中,所述核心对象的邻域集合中包括的数据对象的个数大于等于所述最小对象数目;所述根据所述第一数据对象的邻域集合,确定所述完整数据集中的至少一个强连通分量,包括:确定所述完整数据集中的至少两个核心对象;若所述至少两个核心对象中...

【专利技术属性】
技术研发人员:冯宪凯
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1