The invention discloses a lung cancer cell detector with optimal parameters, which is composed of a gene microarray reading module, a data preprocessing and feature sorting module, a parameter optimization module and a model output module. The system first preprocesses the input gene microarray data, then ranks the importance of the remaining genes, calculates the correlation by statistical score, and then calculates the contribution by using the classifier criterion function to sort all the gene importance. The improved optimization method incorporates fitness detection and population disturbance into the original intelligent optimization algorithm, which can prevent the loss of population diversity and the optimization process from falling into local optimum. Then, the optimal parameters are used as classifier parameters to complete the model construction and output the results. The system is fast and suitable for on-line testing.
【技术实现步骤摘要】
一种参数最优的肺癌癌细胞检测仪
本专利技术涉及基因微阵列数据应用
,具体地,涉及一种参数最优的肺癌癌细胞检测仪。
技术介绍
21世纪是生命科学的世纪,DNA微阵列(DNAMicroarray)上的数据,又叫基因微阵列数据,具有很大的研究价值潜力,基础医学方面,可以利用微阵列快速检测巨量基因的表达值,比较不同典型样本的表达差异,进行疾病致病基因的发现研究、基因检测等。临床上,肿瘤的早期表现为细胞内基因表达图谱的改变,微阵列数据研究可以达到早发现早治疗的作用,来指导临床实践;肺癌是发病率和死亡率增长最快,对人群健康和生命威胁最大的恶性肿瘤之一。近50年来许多国家都报道肺癌的发病率和死亡率均明显增高,男性肺癌发病率和死亡率均占所有恶性肿瘤的第一位,女性发病率占第二位,死亡率占第二位。肺癌的病因至今尚不完全明确,根据1985年美国的估计,男性肺癌中的80%和女性肺癌中的79%归因于吸烟。烟雾中的尼古丁、苯并芘、亚硝胺和少量放射性元素钋等均有致癌作用,尤其易致鳞癌和小细胞癌。肺肿瘤的危险因素比较多,现在医学界推测肺肿瘤应该是一种多因素的疾病。免疫力低下、内分泌失调、心情抑郁及家庭遗传都可能导致肺肿瘤的发生。调查发现,近年来肺癌的发病率和死亡率逐年增长。如何找到肺癌的致病基因是具有重大意义的一项工作。基因微阵列数据有着典型的高维少样本特征,通常每个样本中被观测的基因数量在几千乃至几万,而一次实验只有几十个样本。在模式识别问题中,维数过大,将导致维数灾难,一方面使算法时间随着维数的增加而指数上升,样本数过少,则会让传统的与估计概率密度相关的信息学算法无法进行。找到 ...
【技术保护点】
1.一种参数最优的肺癌癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。
【技术特征摘要】
1.一种参数最优的肺癌癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。2.根据权利要求1所述的参数最优的肺癌癌细胞检测仪,其特征在于:所述基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。3.根据权利要求1所述的参数最优的肺癌癌细胞检测仪,其特征在于:所述数据预处理及特征排序模块对基因微阵列读入模块读入的原始微阵列数据进行归一化以及特征排序。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,则有:定义w为分类绝策面的法向量、w*为最优法向量、α为法向量对应的系数、α*最优法向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。由此可得到基因检测的训练集合其中xi代表n×1的输入特征向量,ti代表m×1的目标向量。给定一个激活函数g(x)以及隐含层的节点个数那么ELM基因检测系统为:其中,ωi代表第i个隐含层节点和输入层之间的权重向量,bi代表第i个隐含层节点的偏置,βi代表第i个隐含层节点和输出层之间的权重向量,oj代表第j个输入数据的目标输出。另外,ωi·xj代表了ωi和xj的内积。该网络的输出能够无限地接近于输入的N个样本,即:可得:上式可以表达为矩阵形式:Hβ=T其中,H表示隐含层的输出矩阵,H的第i列分别表示隐含层的第i个节点对应于N个输入x1,x2,…,xN的输出值。单隐层前馈神经网络(SLFNs)的输入权值和隐含层的偏差在网络训练的过程中不需要调整,可以任意给定。基于上述理论,输出权重可以通过计算Hβ=T的最小二乘解求得:可以利用线性方法快速求得方程的解,如式所示:其中,代表H的Moore-Penrose广义逆矩阵,代表最小范数...
【专利技术属性】
技术研发人员:刘兴高,高信腾,孙元萌,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。