数据填充方法及装置、设备、存储介质制造方法及图纸

技术编号：32436670 阅读：20 留言：0更新日期：2022-02-26 07:54

本申请公开了一种数据填充方法，包括：确定待处理数据集中的完整数据集和缺失数据集；根据特定的邻域半径和最小对象数目，为所述完整数据集中的第一数据对象，确定第二数据对象；根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离，在所述完整数据集中，确定所述第一数据对象的邻域集合；根据所述第一数据对象的邻域集合，对所述缺失数据集进行缺失值填充，得到目标数据集；如此利用可变的邻域集合替代传统固定的Eps邻域，自适应的根据数据的密集程度自动调整邻域大小，从而能够对非均匀数据集进行缺失值填充，提高了缺失值记录填充的准确性。本申请还同时提供了一种数据填充装置、设备及存储介质。设备及存储介质。设备及存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
数据填充方法及装置、设备、存储介质

[0001]本申请涉及数据挖掘领域，涉及但不限定于数据填充方法及装置、设备、存储介质。

技术介绍

[0002]传统的具有噪声的基于密度的聚类方法(Density-Based Spatial Clusteringof Applications with Noise，DBSCAN)填充算法只能填充均匀密度数据集，因为传统的DBSCAN算法使用固定的邻域半径进行聚类，可以对密度均匀的数据集有很好的聚类效果，但却不能处理非均匀密度数据集。
[0003]而现实的数据集往往是非均匀密度的，如果处理非均匀密度数据集，那么使用DBSCAN算法填充缺失值的正确率就会大大降低。亟需提出一种能够在均匀或非均匀密度数据集中正确识别类的改进的DBSCAN算法填充缺失值。

技术实现思路

[0004]有鉴于此，本申请为解决传统的DBSCAN填充方法不能处理非均匀密度数据集的问题而提供一种数据填充方法及装置、设备、存储介质，能够在均匀或非均匀密度数据集中正确识别类，从而更准确的填充缺失值，提高了缺失值填充的正确率。
[0005]本申请的技术方案是这样实现的：
[0006]第一方面，本申请提供一种数据填充方法，所述方法包括：
[0007]确定待处理数据集中的完整数据集和缺失数据集；
[0008]根据特定的邻域半径和最小对象数目，为所述完整数据集中的第一数据对象，确定第二数据对象；
[0009]根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第...

【技术保护点】

【技术特征摘要】
1.一种数据填充方法，其特征在于，所述方法包括：确定待处理数据集中的完整数据集和缺失数据集；根据特定的邻域半径和最小对象数目，为所述完整数据集中的第一数据对象，确定第二数据对象；根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离，在所述完整数据集中，确定所述第一数据对象的邻域集合；根据所述第一数据对象的邻域集合，对所述缺失数据集进行缺失值填充，得到目标数据集。2.如权利要求1所述的方法，其特征在于，所述最小对象数目为所述邻域半径内至少包括的数据对象的数目MinPts，所述根据特定的邻域半径和最小对象数目，为所述完整数据集中的第一数据对象，确定第二数据对象，包括：在以所述第一数据对象的邻域半径范围内，确定离所述第一数据对象第MinPts个最近的第二数据对象。3.如权利要求1或2所述的方法，其特征在于，所述根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离，在所述完整数据集中，确定所述第一数据对象的邻域集合，包括：确定所述邻域半径和所述第一距离之间的最小值；在所述完整数据集中，将与所述第一数据对象的距离小于等于所述最小值的数据对象的集合，作为所述第一数据对象的邻域集合。4.如权利要求1所述的方法，其特征在于，所述根据所述第一数据对象的邻域集合，对所述缺失数据集进行缺失值填充，得到目标数据集，包括：根据所述第一数据对象的邻域集合，将所述完整数据集进行聚类，得到不同类别的数据子集；根据所述缺失数据集中的记录对象与所述不同类别的数据子集的中心之间的第二距离，对所述缺失数据集进行缺失值填充；将所述填充后的缺失数据集和所述完整数据集合并，得到所述目标数据集。5.如权利要求4所述的方法，其特征在于，所述根据所述第一数据对象的邻域集合，将所述完整数据集进行聚类，得到不同类别的数据子集，包括：根据所述第一数据对象的邻域集合，确定所述完整数据集中的至少一个强连通分量；根据所述至少一个强连通分量中，每个强连通分量所包括数据对象的个数，确定所述每个强连通分量的类别；按照所述每个强连通分量的类别，对所述完整数据集进行聚类，得到不同类别的数据子集。6.如权利要求5所述的方法，其特征在于，所述第一数据对象为核心对象，其中，所述核心对象的邻域集合中包括的数据对象的个数大于等于所述最小对象数目；所述根据所述第一数据对象的邻域集合，确定所述完整数据集中的至少一个强连通分量，包括：确定所述完整数据集中的至少两个核心对象；若所述至少两个核心对象中...

【专利技术属性】
技术研发人员：冯宪凯，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人