生物医学数据特征选择方法及装置、计算设备及存储介质制造方法及图纸

技术编号:28719339 阅读:26 留言:0更新日期:2021-06-06 03:12
本发明专利技术提供了一种生物医学数据特征选择方法,包括:提取生物医学数据集中的特征构成原始特征集合;根据所述原始特征集合,对种群进行初始化得到初始种群,并设置生物医学数据特征选择所需的参数;将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;利用轮盘赌选择对所述初始种群进行三系种群的划分,分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作;随机选择恢复系中的个体进行自交操作;当达到最大自交次数时,对恢复系个体进行重置操作,在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;判断是否满足终止条件,输出全局最优的个体。输出全局最优的个体。输出全局最优的个体。

【技术实现步骤摘要】
生物医学数据特征选择方法及装置、计算设备及存储介质


[0001]本专利技术涉及数据挖掘
,尤指一种生物医学数据特征选择方法及装置、计算设备及存储介质。

技术介绍

[0002]近年来,随着基因组测序技术的快速发展,积累了大量基因微阵列数据,对这些生物医学数据进行挖掘和分析,可以为疾病诊断和防治工作带来有效帮助。然而,由于原始数据中存在大量的噪声和冗余特征,并且过多的特征会带来维数灾难的问题,因此,需要对生物医学数据进行特征选择从而挖掘出对分类最有效的特征。
[0003]特征选择是机器学习与数据挖掘中的重要一步,属于数据预处理部分。特征选择是从原始数据集的特征中选择出满足某种评估标准的最优特征组合的过程,其目的是降低特征空间的维数、简化学习模型、缩短学习时间和提高算法的性能,已有大量的研究表明了其有效性。通过从原始特征空间中筛选出有效的特征组合,排除大量无用特征,从而降低处理问题的难度。
[0004]为了达到更好的分类精度,许多研究者提出用智能优化算法来解决特征选择问题,即初始化时随机产生特征组合,特征组合的质量通过一定评价标准(适应度值函数)加以度量,通过不断迭代更新特征组合使其向最优解靠拢,直到达到最大迭代次数或寻找到全局最优子集就输出。解的形式为二进制编码,编码的长度等于原始数据中特征的维度,其中每一位用0或1表示该特征是否被选择进入特征组合。
[0005]有学者将遗传算法GA和分类器SVM相结合以选择出分类精度较高的最优特征组合;粒子群优化算法PSO由于更新机制简单易用已被成功用于医学数据特征选择和分类,但PSO容易陷入局部最优解。
[0006]尽管用于特征选择的智能优化算法已取得很大的进展,但已有的算法或者得到解的优化程度低,或者计算量太大,远未达到满意的程度,因此,仍需要探索其他新的智能优化算法来解决特征选择问题。

技术实现思路

[0007]本专利技术实施例的目的在于:为了克服现有生物医学数据中特征选择技术的不足,提出了一种基于轮盘赌机制水稻育种算法的生物医学数据特征选择方法,在保证分类精度的同时快速得到全局最优的特征组合。同时降低特征的维度,缩短训练时间,简化模型和提高分类器的精度,
[0008]本专利技术实施例所采用的技术方案如下:
[0009]一种基于轮盘赌机制水稻育种算法的生物医学数据特征选择方法,所述方法包括如下步骤:
[0010]S1.提取生物医学数据集中的特征构成原始特征集合;
[0011]S2.根据所述原始特征集合,对种群进行初始化,并设置生物医学数据特征选择所
需的参数;
[0012]S3.将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;
[0013]S4.利用轮盘赌选择进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;
[0014]S5.分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代;
[0015]S6.随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;
[0016]S7.当达到最大自交次数时,对恢复系个体进行重置操作,即在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;
[0017]S8.判断是否满足终止条件,其中,终止条件设为达到最大迭代次数,若否,则返回执行所述步骤3;若是,则转到执行步骤9;
[0018]S9.输出全局最优的水稻个体,该个体可对应为全局最优的特征组合,即算法中每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。
[0019]作为进一步优选的,所述S2中初始化种群X={x1,x2,...x
i
...,x
n
},x
i
为种群中的个体,表示第i个水稻个体的第j个基因,设置二进制水稻育种算法所需的参数包括种群大小n(n一般为3的倍数),每个水稻个体的基因序列长度为L最大迭代次数T
max
,最大自交次数ST
max

[0020]作为进一步优选的,所述S3中利用适应度值评估所选特征组合的质量,个体适应度值f(x
i
)的计算公式为:
[0021][0022]其中,R表示本次选择特征的个数,C表示数据集中特征总数,α和β为两个权重系数,α的范围介于0和1之间,β=1

α,Accuracy(x
i
)表示选择的特征组合参与分类得到的分类正确率,采用K

NN作为分类器进行分类,对于二分类问题,分类精度计算公式表示为:
[0023][0024]其中,T
p
(真正例):真实类别为正例,分类也为正例;T
n
(真负例):真实类别为负例,分类为负例;F
p
(假正例):真实类别为负例,分类为正例;F
n
(假反例):真实类别为正例,分类也为负例。
[0025]作为进一步优选的,所述S4中根据公式(3)和(4)计算出各个体的选择概率P(x
i
)和累计选择概率q
i

[0026][0027][0028]产生一个范围在[0,1]之间的随机数α,若q
i
‑1<α<q
i
,则将个体x
i
选择进入保持系。当保持系个体数量达到种群中个体数的1/3时,同理,再利用轮盘赌分别选择个体进入恢复系和不育系,至此完成种群的三系划分。
[0029]作为进一步优选的,所述S5中通过杂交产生新个体的基因的公式为:
[0030][0031][0032]其中表示第i个水稻种子的基因序列中的第j个基因,和分别表示不育系和保持系中的第k个水稻种子的基因序列中的第j个基因,r1,r2为[

1,1]之间的随机数,且r1+r2≠0。
[0033]作为进一步优选的,所述S6中恢复系水稻种子自交产生新个体的更新公式为:
[0034]sub
result
=X
best sub X
r
(k)
ꢀꢀꢀꢀ
(7)
[0035]X
new(i)
=(r3*sub
result
)add X
r(i)
ꢀꢀꢀ
(8)
[0036]其中,X
new(i)...

【技术保护点】

【技术特征摘要】
1.一种生物医学数据特征选择方法,其特征在于,包括:S1.提取生物医学数据集中的特征构成原始特征集合;S2.根据所述原始特征集合,对种群进行初始化得到初始种群,并设置生物医学数据特征选择所需的参数,其中,所述种群为生物医学数据原始特征集合中随机生成的n种特征组合的集合,n为种群的大小;S3.将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值,其中,所述个体为生物医学数据的特征组合集合中的一组特征组合,适应度值由分类精度和被选择的生物医学数据特征个数占总特征个数的比例共同表示;S4.利用轮盘赌选择对所述初始种群进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;S5.分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代,其中,所述基因为个体对应的特征组合中的每一个特征的状态,每个基因都有两种状态,分别是被选择和不被选择,每个个体中基因的长度与总特征个数相等;S6.随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;S7.当达到最大自交次数时,对恢复系个体进行重置操作,在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;S8.判断是否满足终止条件,其中,终止条件设为达到最大迭代次数,若否,则返回执行所述S3;若是,则转到执行S9;S9.输出全局最优的个体,该个体可对应为全局最优的特征组合,即算法中每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。2.如权利要求1所述的生物医学数据特征选择方法,其特征在于,所述根据所述原始特征集合,对种群进行初始化得到初始种群,并设置生物医学数据特征选择所需的参数具体包括:种群初始化,得到初始种群:X={x1,x2,...x
i
...,x
n
},},其中,X为初始种群,x
i
为种群中的个体,表示第i个个体的第j个基因;设置生物医学数据特征选择所需的参数包括:种群大小n(n一般为3的倍数);每个个体的基因序列长度为L;最大迭代次数T
max
;最大自交次数ST
max
;并令初始时迭代次数t=0,自交次数ST=0。3.如权利要求1所述的生物医学数据特征选择方法,其特征在于,所述杂交操作具体包
括:分别随机从不育系和保持系中选择个体作为父本和母本,将父本和母本的基因通过重新组合产生新的基因序列,分别计算新个体和参与杂交的不育系个体的适应度值,从中选择适应度值低的个体的基因保留至下一代,通过杂交产生新个体的基因的公式为:择适应度值低的个体的基因保留至下一代,通过杂交产生新个体的基因的公式为:其中,表示第i个水稻种子的基因序列中的第j个基因;和分别表示不育系和保持系中的第k个水稻种子的基因序列中的第j个基因,r1,r2为[

1,1]之间的随机数,且r1+r2≠0。4.如权利要求1所述的生物医学数据特征选择方法,其特征在于,所述自交操作具体包括:随机选择恢复系中的个体进行自交操作,计算出新个体的适应度值并跟自交前的个体的适应度值进行比较,若新个体的适应度值优于自交前个体的适应度值,就用产生的新个体替换原始个体,此时将该个体的自交次数ST记为0;否则不替换,该个体的自交次数ST加1;恢复系个体自交产生新个体的更新公式为:sub
result
=X
best
subX
r(k)
ꢀꢀ...

【专利技术属性】
技术研发人员:宗欣露刘诗芹叶志伟王春枝刘伟
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1