【技术实现步骤摘要】
基于蚁狮算法的数据填补方法、装置、设备及存储介质
[0001]本申请实施例涉及数据处理
,具体而言,涉及一种基于蚁狮算法的数据填补方法、装置、设备及存储介质。
技术介绍
[0002]随着网络的飞速发展,网络上每天会产生海量的数据,为了从网络上海量的数据中提取出有价值的信息,数据挖掘技术应运而生。对数据进行挖掘,需要使用到分类器,而分类器需要通过高质量的数据集进行训练,如果训练用的数据的质量很差,就会影响分类器的性能,进而影响数据挖掘的效果,提取到无用信息,忽略有用的信息。由于一些不可避免的技术问题,在获取训练用的数据集时,数据的采集、存储等阶段不可避免的会发生过损耗,出现数据集中的数据缺失,如果直接忽略掉缺失的数据,可能会导致潜在的有价值的信息的缺失,因此需要对数据集进行缺失数据填补。
[0003]现有技术中使用基于距离的方法进行数据填补,没有区分不同数据类型的特征,没有充分利用特征的分布和概率信息,是的数据趋于一致而丧失多样性,填补出的数据也会出现与实际数据之间偏差过大的情况,训练出的分类器对数据的挖掘效果较差,不能满足现有的数据挖掘任务对数据质量的要求。
技术实现思路
[0004]本申请实施例提供一种基于蚁狮算法的数据填补方法、装置、设备及存储介质,旨在提高缺失数据填补任务中数据填补的质量。
[0005]本申请实施例第一方面提供一种基于蚁狮算法的数据填补方法,所述方法包括:
[0006]读取缺失数据集,所述缺失数据集中包括连续型数据以及枚举型数据;
[0007 ...
【技术保护点】
【技术特征摘要】
1.一种基于蚁狮算法的数据填补方法,其特征在于,所述方法包括:读取缺失数据集,所述缺失数据集中包括连续型数据以及枚举型数据;设置多个蚁狮个体以及蚂蚁个体,通过混沌映射对所述多个蚁狮个体的位置编码以及蚂蚁个体的位置编码进行初始化,得到多个初始化蚁狮个体以及多个初始化蚂蚁个体;根据所述缺失数据集,对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估,得到所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体的适应度值;根据所述多个初始化蚁狮个体的适应度值,从所述多个初始化蚁狮个体中确定适应度值最大的蚁狮个体,将该蚁狮个体作为精英蚁狮个体;针对每个所述初始化蚂蚁个体,通过轮盘赌方法从所述多个初始化蚁狮个体中选择一个初始化蚁狮个体,将该蚁狮个体作为选定蚁狮个体;根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码,对每个所述初始化蚂蚁个体的位置编码进行更新,得到多个更新后的蚂蚁个体;根据所述缺失数据集,对所述多个更新后的蚂蚁个体中的每个蚂蚁个体分别进行适应度计算,得到所述多个更新后的蚂蚁个体的适应度值;根据所述多个更新后的蚂蚁个体的适应度值,对所述多个初始化蚁狮个体进行更新,得到多个更新后的蚁狮个体;根据所述多个更新后的蚁狮个体,对所述精英蚁狮个体进行更新,得到更新后的精英蚁狮个体;迭代执行上述蚂蚁个体更新、蚁狮个体更新以及精英蚁狮个体更新步骤,当满足迭代退出条件时,得到最优精英蚁狮个体;根据所述最优精英蚁狮个体的位置编码生成数据填补模型,通过所述数据填补模型进行数据填补,得到数据填补结果。2.根据权利要求1所述的方法,其特征在于,根据所述缺失数据集,对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估,包括:通过所述多个初始化蚁狮个体以及多个初始化蚂蚁个体,对所述缺失数据集进行数据填补,得到多个填补后的数据集;对于每个所述填补后的数据集,使用均方根误差对所述填补后的数据集进行计算,得到填补数据与原数据之间的距离;将所述填补数据与原数据之间的距离的倒数作为所述填补后数据集对应的个体的适应度值。3.根据权利要求2所述的方法,其特征在于,通过所述多个初始化蚁狮个体以及多个初始化蚂蚁个体,对所述缺失数据集进行数据填补,得到多个填补后的数据集,包括:针对每个所述初始化蚁狮个体以及每个所述初始化蚂蚁个体,通过映射模型对每个个体的位置编码进行映射,得到用于填补连续型数据的均值与标准差以及用于填补枚举型数据的概率取值;根据所述均值与标准差生成正态分布模型,通过所述正态分布模型对所述缺失数据集中的连续型数据进行数据填补;根据所述取值概率,采用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填
补,得到所述多个填补后的数据集。4.根据权利要求1所述的方法,其特征在于,根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码,对所述每个初始化蚂蚁个体的位置编码进行更新,得到多个更新后的蚂蚁个体,包括:针对每个所述蚂蚁个体,对所述蚂蚁个体进行归一化随机游走;根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码,分别对所述蚂蚁个体的位置编码进行更新,得到两个初步更新后的蚂蚁个体;将所述两个初步更新后的蚂蚁个体的位置编码求均值,得到所述更新后的蚂蚁个体。5.根据权利要求1所述的方法,其特征在于,根据所述多个更新后的蚂蚁个...
【专利技术属性】
技术研发人员:刘艺,秦伟,李庚松,郑奇斌,刁兴春,
申请(专利权)人:北京大数据先进技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。