当前位置: 首页 > 专利查询>浙江大学专利>正文

一种参数最优的白血病癌细胞检测仪制造技术

技术编号:19122407 阅读:43 留言:0更新日期:2018-10-10 05:21
本发明专利技术公开了一种参数最优的白血病癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。系统首先将输入的基因微阵列数据预处理,然后对剩余的各个基因进行重要性排序,通过统计分数计算相关性,再利用分类器准则函数计算贡献度,将所有基因对诊断的重要性进行排序。改进的优化方法加入了寻优算法种群适应度方差监测,能够防止种群多样性散失以及优化过程陷入局部最优。然后将搜寻到的最优参数作为分类器参数完成模型构建并输出诊断结果。系统在小样本条件下诊断精度高、智能性好。

【技术实现步骤摘要】
一种参数最优的白血病癌细胞检测仪
本专利技术涉及基因微阵列数据应用
,具体地,涉及一种自动搜寻系统最优参数的白血病癌细胞检测仪。
技术介绍
当今时代,随着人们对于生活质量以及生命安全的意识的提高,如何准确诊断疾病以及寻找正确的治疗手段称为当下一大研究热点。随着DNA微阵列技术的发展,这项诉求成为一种可能。白血病(Leukemia),亦称作血癌,是一种造血系统的恶性肿瘤。病源是由于细胞内脱氧核糖核酸的变异形成的骨髓中造血组织的不正常工作。骨髓中的干细胞每天可以制造成千上万的红血球和白细胞。白血病病人过分生产不成熟的白细胞,妨害骨髓的其他工作,这使得骨髓生产其它血细胞的功能降低。白血病可以扩散到淋巴结、脾、肝、中枢神经系统和其它器官。白血病居年轻人恶性疾病中的首位,是危害巨大的一类疾病。
技术实现思路
为了克服目前难以搜寻基因微阵列数据最优特征子集以及分类最佳参数的不足,本专利技术的目的在于提供一种参数智能寻优的白血病诊断模型。本专利技术解决其技术问题所采用的技术方案是:一种参数最优的白血病癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成;其中:基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。数据预处理及特征排序模块是对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,在支持向量机理论中,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,支持向量机的目标函数即是最小化它。在使用线性核作为支持向量机的核函数的情况下,则有:定义w*为最优支持向量、w为法向量、α*最优支持向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。对于一组样本点集合(x1,y1),…(xn,yn),x∈Rn,y∈(+1,-1),其中x代表样本点,y代表分类标签,其分类超平面为:w·x+b=0,对于两类样本,归一化该表达式可得:yi[(w·xi)+b]-1≥0i=1,2,…,n引入拉格朗日函数:定义是大于0的拉格朗日乘子,b为超平面的截距。该式即在w、b的变化下求得目标函数的最小值。对w、b分别求偏微分并令其等于0,可得到这个复杂问题的较为简单的对偶问题:其中,Q表示代价函数。在非线性的情况下,需要用某种变换将样本点映射到高维空间求取线性可分,即:其中,表示核变换。引入核函数和松弛变量ξi≥0,将约束条件转变为:K(xi,xj)=tanh(v(xi·xj)+c)其中,v为一种核函数,c为偏移量。引入惩罚因子C则原模型转化为:s.t.yi(wTxi+b)≥1-ξi,ξi≥0,i=1,…,n所以可得最终模型如下:参数寻优模块首先设粒子群S={x1,x2,…,xm1},其中xi=(xi1,xi2,…,xiD),i=1,2,…,m1,也就是有m1个粒子,每个粒子的位置一个D维问题在搜索空间的潜在解。通过计算各个粒子位置的适应度来比较粒子位置的优劣。vpi=(vpi1,vpi2,…vpiD)表示粒子i的飞行速度,或者说粒子下一步的移动距离;pi=(pi1,pi2,…,piD),i=1,2,…,m记录第i个粒子当前搜素到的最优解,即pbest;pg=(pg1,pg2,…,pgD),g∈(1,m)表示种群搜索到的全局最优解,即gbest,其中g表示群体中位置最佳的粒子的位置索引编号。然后由以下公式更新自己的位置与速度:其中c1和c2是加速常数,一般情况下设为相等,r1和r2是取值于[0,1]的两个随机数,增加了粒子飞行的随机性。为控制xi和vi的值在合理的区域内,设定当xi<-xmax,令xi=-xmax;当xi>+xmax,令xi=+xmax。考虑到迭代初期的全局搜索能力要求与迭代末期的局部搜索要求,可在传统更新公式上增加一个惯性系数wp:wpk=wpmax-(wpmax-wpmin)×(k-1)/itermax其中,itermax为最大迭代次数。在迭代初期wp较大,k较小,有利于在更新在较大范围内跳跃,便于全局搜索,迭代末期则相反。此时原更新公式改变为:设置随机飞行范围适应度方差阈值0.01,种群大小为20,最大迭代次数为100。再定义一个种群适应度方差定义如下:其中,fitness为适应度、σ为方差,下标avg表示平均值。当种群适应度方差较小时,种群多样性丧失,继续寻优能力不强,所以引入变化策略来增加种群多样性。具体算法流程如下:1)初始化粒子群参数:种群p,粒子速度v和位置x,最小惯性系数wmin和最大惯性系数wmax,加速度系数C1和C2,迭代最大次数itermax,迭代次数k=1;2)计算每个粒子的适应度,计算每个粒子的历史最佳适应度的位置pbesti与种群历史最佳适应度对应的位置gbest;3)由上述公式更新每个粒子的速度与位置,重新计算对应的适应度,并与历史最优解对比,如果不优于历史最佳值,则进入4),否则跳到7);4)计算种群适应度方差,如果大于0.01,则跳到8);5)随机搜索位置rand(),搜索距离RandValue,由此,在当前位置下前进:计算每个位置点与原点的距离Disti以及信息素浓度中间变量Si:将Si带入设计好的适应度函数以求取每个位置点对应的信息素浓度值:smelli=function(si)。找到最佳适应度解,如果它优于历史最优解,则保存适应度值与它的索引,并更新种群信息,让每个位置点都在下一步迭代朝最佳位置前进,其中bestSmell表示最佳适应度,bestIndex表示最佳适应度坐标标号值,Xaxis、Yaxis分别为X轴、Y轴坐标值:[bestSmell,bestIndex]=max(smelli)6)循环达到最大迭代次数后退出搜索,将最后记录在[bestSmell,bestIndex]的值解作为最优解以及对应的适应度。7)更新全局最优信息;8)令k=k+1,如果k<itermax则返回步骤3,否则输出寻优结果作为最终分类器参数的最优解;本专利技术的有益效果主要表现在:本专利技术利用统计分数以及分类贡献度技术对大量的基因进行排序,得到最优排序子集,系统在小样本条件下诊断精本文档来自技高网...
一种参数最优的白血病癌细胞检测仪

【技术保护点】
1.一种参数最优的白血病癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。

【技术特征摘要】
1.一种参数最优的白血病癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。2.根据权利要求1所述的参数最优的白血病癌细胞检测仪,其特征在于:所述基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。3.根据权利要求1所述的参数最优的白血病癌细胞检测仪,其特征在于:所述数据预处理及特征排序模块对基因微阵列读入模块读入的原始微阵列数据进行归一化以及特征排序。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,在支持向量机理论中,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,支持向量机的目标函数即是最小化它。在使用线性核作为支持向量机的核函数的情况下,则有:定义w*为最优支持向量、w为法向量、α*最优支持向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。对于一组样本点集合(x1,y1),…(xn,yn),x∈Rn,y∈(+1,-1),其中x代表样本点,y代表分类标签,其分类超平面为:w·x+b=0,对于两类样本,归一化该表达式可得:yi[(w·xi)+b]-1≥0i=1,2,…,n引入拉格朗日函数:定义是大于0的拉格朗日乘子,b为超平面的截距。该式即在w、b的变化下求得目标函数的最小值。对w、b分别求偏微分并令其等于0,可得到这个复杂问题的较为简单的对偶问题:其中,Q表示代价函数。在非线性的情况下,需要用某种变换将样本点映射到高维空间求取线性可分,即:其中,表示核变换。引入核函数和松弛变量ξi≥0,将约束条件转变为:K(xi,xj)=tanh(v(xi·xj)+c)其中,v为一种核函数,c为偏移量。引入惩罚因子C则原模型转化为:s.t.yi(wTxi+b)≥1-ξi,ξi≥0,i=1,…,n所以可得最终模型如下:4.根据权利要求1所述的参数最优的白血病癌细胞检测仪,其特征在于:所述参数寻优模块首先设粒子群S={x1,x2,…,xm1},其中xi=(xi1,xi2,…,xiD),i=1,2,…,m1,也就是有m1个粒子,每个粒子的位置一个D维问题在搜索空间的潜在解。通过计算各个粒子位置的适...

【专利技术属性】
技术研发人员:刘兴高高信腾张泽银
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1