The invention discloses an intelligent leukemia cancer cell detector, which is composed of gene microarray reading module, data pretreatment and feature sorting module, parameter optimization module and model output module. The system first preprocesses the input gene microarray data, then ranks the importance of the remaining genes, calculates the correlation by statistical score, and then calculates the contribution by using the classifier criterion function to sort all the gene importance. The improved optimization method incorporates fitness detection and population disturbance into the original intelligent optimization algorithm, which can prevent the loss of population diversity and the optimization process from falling into local optimum. Then, the optimal parameters are used as classifier parameters to complete the model construction and output the results. The system has good correlation and high accuracy.
【技术实现步骤摘要】
一种智能白血病癌细胞检测仪
本专利技术涉及基因微阵列数据应用
,具体地,涉及一种智能白血病癌细胞检测仪。
技术介绍
DNA微阵列(DNAmicroarray)又称DNA阵列或DNA芯片,比较通俗的名字是基因芯片(genechip)。是一块带有DNA微阵列(micorarray)涂层的特殊玻璃片,在数平方厘米之面积上安装数千或数万个核酸探针,经由一次测验,即可提供大量基因序列相关资讯。它是基因组学和遗传学研究的工具。研究人员应用基因芯片就可以在同一时间定量的分析大量(成千上万个)的基因表达的水平,具有快速、精确、低成本之生物分析检验能力。其中可以用来检测基因表现程度之cDNA微阵列(cDNA-microarray),已开始商业化,市场主要以研发实验室为主。此外,以光刻(photolithography)技术制作,可检测基因多形式(Polymorphisms)之生物芯片,尚处于试验阶段而结合微流体学(microfluidics)之临床用芯片,则仍在研发阶段。急性白血病(acuteleukemia,AL)是造血干细胞的恶性克隆性疾病,发病时骨髓中异常的原始细胞及幼稚细胞(白血病细胞)大量增殖,蓄积于骨髓并抑制正常造血,广泛浸润肝、脾、淋巴结等髓外脏器。表现为贫血、出血、感染和浸润等征象。根据受累的细胞类型,AL通常可以分为急性淋巴细胞白血病(acutelymphoblasticleukemia,ALL)和急性髓细胞白血病(acutemyeloidleukemia,AML)两大类。我国AML的发病率约为1.62/10万,而ALL则约为0.69/10万。成人以 ...
【技术保护点】
1.一种智能白血病癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。
【技术特征摘要】
1.一种智能白血病癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。2.根据权利要求1所述智能白血病癌细胞检测仪,其特征在于:所述基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。3.根据权利要求1所述智能白血病癌细胞检测仪,其特征在于:所述数据预处理及特征排序模块对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,在支持向量机理论中,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,支持向量机的目标函数即是最小化它。在使用线性核作为支持向量机的核函数的情况下,则有:其中,w*为最优支持向量、w为法向量、α*最优支持向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。对于一组训练样本集合(x1,y1),…(xn,yn),x∈Rn,y∈R,其中x表示训练样本,y表示类别标签。与SVM类似,通过变换将训练样本映射到高维空间。目标函数等价于求解下面二次规划问题:其中,ξi为松弛变量,即预测值与实际值的误差,b为超平面的截距,C为惩罚因子,上标T表示转置。与标准SVM相比不同的是,LSSVM中的二次规划约束条件为等式,并且损失函数为二次函数。为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。