【技术实现步骤摘要】
一种基于蛇群优化算法的大数据特征选择方法
[0001]本专利技术属于数据挖掘
,特别是涉及一种基于蛇群优化算法的大数据特征选择方法。
技术介绍
[0002]大量的数据以各种形式出现,在医学数据挖掘领域,随着相关技术的发展,有越来越多的数据可以被收集到并被用于机器学习数据挖掘,然而大多数的医学数据集中包含大量的特征数量。但是,这些数据中有很大一部分是无关的,冗余的,有噪声的,甚至会降低预测准确率,因此需要进行转换以适合建模。
[0003]特征选择是消除不相关、冗余和噪声特征的有效方法。特征选择是在保证预测精度的前提下减少特征空间的维数,避免“维度灾难”,并通过拒绝冗余、无效和无关的特征参与建模来减少训练模型的时间成本和存储成本。
[0004]特征选择问题是一种二进制的全局组合优化问题,可以抽象为找到一个长度为原始特征数N
col
的解向量,每个分量只有0和1两种值,分别对应不选择该特征和选择该特征,见图1。
[0005]现有的选择策略包括穷举法与启发式算法。穷举法,即枚举出各种可能 ...
【技术保护点】
【技术特征摘要】
1.一种基于蛇群优化算法的大数据特征选择方法,其特征在于,包括以下步骤:对蛇群优化算法的参数以及适应度计算函数进行初始化,并将蛇群分为雄性蛇群和雌性蛇群;分别对所述雄性蛇群、所述雌性蛇群的最优解和最优适应度值进行初始化;定义第一温度、第一食物质量、温度阈值以及食物质量阈值的值;分别基于所述第一食物质量与所述食物质量阈值的大小关系,所述第一温度与所述温度阈值的大小关系,迭代计算,更新雄蛇和雌蛇的最优解、最优适应度值;直到迭代结束,获取最终全局最优解;基于所述最终全局最优解训练分类器,基于训练好的分类器进行大数据特征选择。2.根据权利要求1所述的方法,其特征在于,所述蛇群参数包括:蛇群中蛇个体的总数、进行特征选择的数据集的特征数、特征数、当前迭代次数以及最大迭代次数。3.根据权利要求1所述的方法,其特征在于,分别对所述雄性蛇群、所述雌性蛇群的最优解和最优适应度值进行初始化的过程包括:基于所述雄性蛇群获取雄性蛇群适应度表,将所述雄性蛇群适应度表存入雄性蛇群中每条蛇的适应度;基于所述雌性蛇群获取雌性蛇群适应度表,将所述雌性蛇群适应度表存入雌性蛇群中每条蛇的适应度;对雄性蛇群的最优解和最优适应度、雌性蛇群的最优解和最优适应度进行初始化。4.根据权利要求1所述的方法,其特征在于,分别基于所述第一食物质量与所述食物质量阈值的大小关系,所述第一温度与所述温度阈值的大小关系,迭代计算,更新雄蛇和雌蛇的最优解、最优适应度值的过程中包括:S1,基于所述第一食物质量与所述食物质量阈值的大小关系,分别计算获取雄蛇第一阶段值和雌蛇第一阶段值;S2,基于所述第一食物质量与所述食物质量阈值的大小关系,所述第一温度与所述温度阈值的大小关系,分别计算获取雄蛇第二阶段值和雌蛇第二阶段值;S3,设定第一预设值,获取rand值,基于所述第一温度与所述温度阈值的大小关系,所述rand值与所述第一预设值的大小关系,分别计算获取雄蛇第三阶段值和雌蛇第三阶段值,其中所述rand值为0到1之间服从均匀分布的浮点随机数;S4,对S1
‑
S3进行迭代,迭代过程中,对新产生的每个下一代的解进行基于高斯分布的变异映射操作;S5,更新雄蛇和雌蛇的最优解、最优适...
【专利技术属性】
技术研发人员:康辉,包新雨,孙庚,李洪娟,王渤雄,
申请(专利权)人:吉林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。