生物疫苗数据特征选择方法、装置、设备及介质制造方法及图纸

技术编号:39428386 阅读:11 留言:0更新日期:2023-11-19 16:14
本发明专利技术公开了生物疫苗数据特征选择方法、装置、设备及介质,涉及生物疫苗研发数据挖掘技术领域,方法包括步骤1:对高维生物疫苗数据集进行预处理,使用卡方检验计算每个特征与标签之间的相关性,并按照相关性进行排序,保留指定比例的排序靠前的特征;步骤2:将预处理后的生物疫苗数据集划分为训练集和测试集;该生物疫苗数据特征选择方法、装置、设备及介质,通过设置算法模型模块、算法迭代模块、算法输出模块,使用自适应的参数更新策略用于取代粒子群优化算法的固定参数,使粒子能在更合理的范围内搜索,还采用了一种向搜索过程中前三位最优粒子学习的领导学习策略,为粒子搜索提供了更丰富的种群多样性。更丰富的种群多样性。更丰富的种群多样性。

【技术实现步骤摘要】
生物疫苗数据特征选择方法、装置、设备及介质


[0001]本专利技术涉及生物疫苗研发数据挖掘
,具体涉及生物疫苗数据特征选择方法

装置

设备及介质


技术介绍

[0002]随着生物疫苗研发和生产制造技术快速的发展,疫苗研发及生产过程中会产生大量的数据

为了从这些生物疫苗数据中获取有效信息,需要对这些数据进行处理分析,机器学习算法作为一种有效的处理方法备受研究者青睐

然而,在实际应用中,机器学习算法所要处理的生物疫苗数据中存在着大量不相关或者冗余的特征,这些特征可能会影响算法的学习精度和训练速度,从而影响机器学习算法的性能

[0003]特征选择是一种数据预处理技术,旨在从原始数据集中删除大量无关和冗余的特征,并选择一些重要的特征来构建一个有效的特征子集,特征子集可以尽可能地保留原始数据集的特点,提高机器学习算法的性能表现

特征选择具有降低数据的储存成本,减少机器学习算法的训练时间,提高分类准确率,促进数据的可视化和理解等优点

然而,在高维数据集中,由于其维度高,训练样本少,并且存在着大量冗余和不相关的特征,给传统的特征选择方法带来了一定的困难,因此,提出一个高效的特征选择方法用于处理高维数据集是一个十分有意义的课题

[0004]群智能优化算法是一类基于计算智能机制,将随机算法与局部搜索算法相结合形成的算法,常被用于求解复杂优化问题最优解或满意解r/>。
随着计算机科学技术的飞速发展,群智能优化算法已经在生物疫苗

机械调度

图像信号处理

医疗健康领域得到了广泛的应用

近年来,高维数据存在的“维度灾难”问题给一些传统的特征选择方法带来了挑战

特征选择作为一个经典的组合优化问题,一个具有
N
个特征的数据集理论上会产生
2N
‑1个特征子集,穷举搜索在理论上可以找到最优特征子集,但是随着维度的升高,使用穷举搜索的时间消耗巨大,在现有的计算机硬件基础上使用穷举搜索搜寻高维数据集的特征子集是不现实的

由于群智能优化算法基于随机搜索的特点,已被广泛应用于求解高维

非线性组合优化问题

通过群智能优化算法对高维数据进行特征选择,能有效地降低高维数据集的维度,同时提升分类准确率

众多的实验研究表明,基于群智能优化算法的特征选择方法在处理高维数据上具有显著优势

[0005]现有的粒子群优化算法存在的种群多样性不足,搜索容易陷入局部最优问题,高维生物疫苗数据集存在的“维度灾难”,特征选择过程中的时间消耗较长的问题,因此,将群智能优化算法中经典的粒子群优化算法应用于生物疫苗数据中高维特征选择是具有十分重要的研究意义的


技术实现思路

[0006]本专利技术的目的是提供生物疫苗数据特征选择方法

装置

设备及介质,以解决现有技术中的上述不足之处

[0007]为了实现上述目的,本专利技术提供如下技术方案:生物疫苗数据特征选择方法,包括以下步骤:
[0008]步骤1:对高维生物疫苗数据集进行预处理,使用卡方检验计算每个特征与标签之间的相关性,并按照相关性进行排序,保留指定比例的排序靠前的特征;
[0009]步骤2:将预处理后的生物疫苗数据集划分为训练集和测试集;
[0010]步骤3:初始化种群和改进粒子群优化算法所需参数,所述的初始化参数包括:种群规模
N
,最大迭代次数
T
,速度向量,位置向量,当前种群个人最佳位置
pbesti
和全局最佳位置
gbest
,设置位置向量上限
ub
=1,下限
lb
=0;
[0011]步骤4:将每个粒子的位置向量进行二进制编码转化;
[0012]步骤5:算法开始迭代运行,在每次迭代过程中,计算种群中每个粒子代表的特征子集的适应性函数值,通过比较每个粒子的适应性函数值,确定当前迭代中适应性函数值最高的三个粒子;
[0013]步骤6:更新种群中粒子的速度向量和位置向量;
[0014]步骤7:判断当前迭代次数是否达到最大迭代次数,若否,则执行步骤5,若是,则输出全局最优的粒子所对应的特征子集及其适应度值

[0015]进一步的,所述步骤1使用卡方检验对高维生物疫苗数据集进行预处理;使用卡方检验计算数据集中特征与标签的相关性的计算公式为;
[0016][0017]其中,
f0
表示实际频数,
fe
表示理论频数,使用卡方检验进行特征选择时,通过计算卡方值的大小,判断两者之间的差异性

[0018]进一步的,所述步骤3将种群中每个粒子进行初始化,对种群中每个粒子的速度向量
v
i
,位置向量
x
i
进行初始化
v
i

(v
i1
,v
i2
,

,v
id
)

x
i

(x
i1
,x
i2
,

,x
id
)
,其中,
vi

xi
表示第
i(i
=1,2,


N)
个粒子的速度和位置矢量,
d
表示数据集的特征维度

[0019]进一步的,所述步骤4中二进制转换使用公式为:
[0020][0021]其中,
Xb
id

(Xb
i1
,Xb
i2
,

,Xb
id
)

Xb
id

(
示经过二进制转换后种群中粒子的位置向量,
i

d
分别表示种群的粒子数量和特征维度

[0022]进一步的,所述步骤5中计算初始种群的适应性函数值的计算公式为:
[0023][0024]其中
acc(X)
表示特征子集的分类准确率,
#X

N
分别表示特征子集和原始数据集中的特征数量,
θ
为用于平衡分类准确率和选择特征数量的惯性权重

[0025]进一步的,所述步骤6中,根据种群中前三个最优粒子对种群中每个粒子的速度向量和位置向量进行更新,具体步骤为:...

【技术保护点】

【技术特征摘要】
1.
生物疫苗数据特征选择方法,其特征在于:包括以下步骤:步骤1:对高维生物疫苗数据集进行预处理,使用卡方检验计算每个特征与标签之间的相关性,并按照相关性进行排序,保留指定比例的排序靠前的特征;步骤2:将预处理后的生物疫苗数据集划分为训练集和测试集;步骤3:初始化种群和改进粒子群优化算法所需参数,所述的初始化参数包括:种群规模
N
,最大迭代次数
T
,速度向量,位置向量,当前种群个人最佳位置
pbesti
和全局最佳位置
gbest
,设置位置向量上限
ub
=1,下限
lb
=0;步骤4:将每个粒子的位置向量进行二进制编码转化;步骤5:算法开始迭代运行,在每次迭代过程中,计算种群中每个粒子代表的特征子集的适应性函数值,通过比较每个粒子的适应性函数值,确定当前迭代中适应性函数值最高的三个粒子;步骤6:更新种群中粒子的速度向量和位置向量;步骤7:判断当前迭代次数是否达到最大迭代次数,若否,则执行步骤5,若是,则输出全局最优的粒子所对应的特征子集及其适应度值
。2.
根据权利要求1所述的生物疫苗数据特征选择方法,其特征在于:所述步骤1使用卡方检验对高维生物疫苗数据集进行预处理;使用卡方检验计算数据集中特征与标签的相关性的计算公式为;其中,
f0
表示实际频数,
fe
表示理论频数,使用卡方检验进行特征选择时,通过计算卡方值的大小,判断两者之间的差异性
。3.
根据权利要求1所述的生物疫苗数据特征选择方法,其特征在于:所述步骤3将种群中每个粒子进行初始化,对种群中每个粒子的速度向量
v
i
,位置向量
x
i
进行初始化
v
i

(v
i1
,v
i2
,

,v
id
)

x
i

(x
i1
,x
i2
,

,x
id
)
,其中,
vi

xi
表示第
i(i
=1,2,


N)
个粒子的速度和位置矢量,
d
表示数据集的特征维度
。4.
根据权利要求1所述的生物疫苗数据特征选择方法,其特征在于:所述步骤4中二进制转换使用公式为:其中,
Xb
id

(Xb
i1
,Xb
i2
,

,Xb
id
)

Xb
id
表示经过二进制转换后种群中粒子的位置向量,
i

d
分别表示种群的粒子数量和特征维度
。5.
根据权利要求1所述的生物疫苗数据特征选择方法,其特征在于:所述步骤5中计算初始种群的适应性函数值的计算公式为:其中
acc(X)
表示特征子集的分类准确率,
#X

N
分别表示特征子集和原始数据集中的特征数量,
θ<...

【专利技术属性】
技术研发人员:谢海涛潘虎叶志伟周雯王明威蔡婷白万芳吕炳辉程育霖
申请(专利权)人:西宁市大数据服务管理局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1