当前位置: 首页 > 专利查询>浙江大学专利>正文

一种智能结肠癌癌细胞检测仪制造技术

技术编号:19241147 阅读:51 留言:0更新日期:2018-10-24 04:23
本发明专利技术公开了智能结肠癌癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。系统首先将输入的基因微阵列数据预处理,然后对剩余的各个基因进行重要性排序,通过统计分数计算相关性,再利用分类器准则函数计算贡献度,将所有基因重要性进行排序。改进的优化方法在原始的智能寻优算法下加入了适应度检测与种群扰动,能够防止种群多样性散失以及优化过程陷入局部最优。然后将搜寻到的最优参数作为分类器参数完成模型构建并输出结果。系统诊断速度快,适合在线检测。

【技术实现步骤摘要】
一种智能结肠癌癌细胞检测仪
本专利技术涉及基因微阵列数据应用
,具体地,涉及一种智能结肠癌癌细胞检测仪。
技术介绍
DNA微阵列(DNAmicroarray)又称DNA阵列或DNA芯片,比较通俗的名字是基因芯片(genechip)。是一块带有DNA微阵列(micorarray)涂层的特殊玻璃片,在数平方厘米之面积上安装数千或数万个核酸探针,经由一次测验,即可提供大量基因序列相关资讯。它是基因组学和遗传学研究的工具。研究人员应用基因芯片就可以在同一时间定量的分析大量(成千上万个)的基因表达的水平,具有快速、精确、低成本之生物分析检验能力。结肠癌是常见的恶性肿瘤之一,以40岁—50岁年龄组发病率最高。据世界流行病学调查,发现结肠癌在北美、西欧、澳大利亚、新西兰等地的发病率最高,居内脏种瘤前二位,但在亚、非、拉美等地发病率则很低。结肠癌是是常见的消化道恶性肿瘤,占胃肠道肿瘤的第二位。好发部位为直肠及直肠与乙状结肠交界处,占60%,发病多在40岁以后,男女之比为2:1。随着生活水平的提高和饮食结构的改变,中国城市结肠癌的发病率呈逐年上升趋势。找到合适的方法对结肠癌进行快速准确的得出结果是当下科研热点——DNA微阵列技术的运用的一个典型案例。在这类问题中,找到合适的分类器以及参数优化算法最为困难与重要。
技术实现思路
为了克服目前难以搜寻基因微阵列数据最优特征子集以及分类最佳参数的不足,本专利技术的目的在于提供一种智能结肠癌癌细胞检测仪。本专利技术解决其技术问题所采用的技术方案是:一种智能结肠癌癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成;其中:基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。数据预处理及特征排序模块是对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,则有:定义w为分类绝策面的法向量、w*为最优法向量、α为法向量对应的系数、α*最优法向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。在构建回声状态网络分两类器过程中,通过输入矩阵X和输出矩阵Y训练ESN分类器,分类器的状态转移方程和输出方程分别为S=φ(WresS+WinX)其中,S是q×1储存池单元状态矩阵,X是基因特征输入矩阵,Y是m×1基因检测输出矩阵。Wresq×q的权重矩阵,Win和Wout分别是q×m的输入权重矩阵和输出权重矩阵。φ是从特征空间到输出空间的非线性映射,如下其中,是tanh激活函数,表达为单隐层前馈神经网络的输入权值Win和隐含层的权重Wres在网络训练的过程中不需要调整,输出权重由线性最小二乘方法进行辨识ESN分类器针对基因检测非线性问题具有训练速度快,精度高的优点。参数寻优模块设计使用一种改进的智能算法来增加种群的多样性,具体设计如下:1)初始化DE算法的种群信息:在种群中,随机产生:上式中xi(0)代表初代第i个个体染色体基因的表达值,、xj,i(0)代表初代第i个个体中第j个染色体基因的表达值、rand(0,1)是(0,1)区间里的均匀随机数、NP是种群大小、上标L、U分别表示下界值、上界值。2)变异操作(Mutation):DE算法区分于遗传算法(GA)的特点就在于其采用查分策略进行变异,通过随机选择两个个体之差,缩放后与目标个体进行向量和,也就是vi(g+1)=xr1(g)+F·(xr2(g)-xr3(g)),i≠r1≠r2≠r3上式中,g代表第g代,F是两个随机向量差的缩放系数,vi(g+1)是变异中间变量,xr1(g)、xr2(g)、xr3(g)分别表示第g代第1、2、3个个体第r个染色体基因的表达值。3)交叉操作(Crossover):将第g代种群xi(g)与步骤2)产生的中间变量vi(g+1)进行交叉,产生上式中,CR是设定的交叉率,uj,i(g+1)是交叉中间变量。4)选择操作(Selection):差分进化算法使用通常的贪心算法进行保留下一代,如果交叉产生的种群适应度f(ui(g+1)大于上一代的种群适应度f(xi(g)),则保留,否则种群不变,即为了避免出现早熟情况,设计一个自适应算子λ:上式中Gmax代表最大迭代次数,G代表当前迭代次数,F0为变异算子,初期该值较大,保证样本多样性,后期逐渐变小,意在保护进化过程的优良信息。在差分进化算法中,如果适应度在一定迭代次数后始终无法超过历史最优,则认为陷入局部最优,此时利用群智能算法跳出差分进化算法:5)将当前位置点信息初始化给蚁群智能算法,其中蚂蚁个体数目为:m,信息素浓度为:τij=c(c>0)。6)模拟所有的蚂蚁1,2...,m向终点移动,每个蚂蚁从当前位置i向下一个位置j移动的概率为:7)一次迭代完成时,即所有蚂蚁走完路径时,更新当前信息素浓度:上式中ρ为信息素浓度挥发系数,代表蚂蚁k在路径ij上留下的信息素浓度,根据信息素浓度反比于路径长度的关系,可将其定义如下:上式中,C为比例常量,L为路径长度。8)得到新的候选解之后,与历史最佳对比并更新历史最佳。9)迭代运行以上过程直至达到最大代数。然后将历史最佳参数作为参数寻优的最终结果输入模型输出模块。模型输出模块,利用以上过程得到的模型,直接输入病患数据,即可根据标签值得出结果。本专利技术的有益效果主要表现在:本专利技术在智能寻优过程中,设定了监测变量增加种群多样性,从而增大了搜索到最优参数的几率,速度快,适合在线检测。附图说明图1是本专利技术的结构示意图;图2是本专利技术的流程图。具体实施方式下面根据附图具体说明本专利技术。参照图1,一种智能结肠癌癌细胞检测仪,该系统由基因微阵列读入模块1、数据预处理及特征排序模块2、参数寻优模块3、模型输出模块4组成;其中:基因微阵列读入模块1读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示本文档来自技高网...

【技术保护点】
1.一种智能结肠癌癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。

【技术特征摘要】
1.一种智能结肠癌癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。2.根据权利要求1所述智能结肠癌癌细胞检测仪,其特征在于:所述基因微阵列读入模块读入所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。3.根据权利要求1所述智能结肠癌癌细胞检测仪,其特征在于:所述数据预处理及特征排序模块对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,则有:定义w为分类绝策面的法向量、w*为最优法向量、α为法向量对应的系数、α*最优法向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。在构建回声状态网络分两类器过程中,通过输入矩阵X和输出矩阵Y训练ESN分类器,分类器的状态转移方程和输出方程分别为S=φ(WresS+WinX)其中,S是q×1储存池单元状态矩阵,X是基因特征输入矩阵,Y是m×1基因检测输出矩阵。Wresq×q的权重矩阵,Win和Wout分别是q×m的输入权重矩阵和输出权重矩阵。φ是从特征空间到输出空间的非线性映射,如下其中,是tanh激活函数,表达为单隐层前馈神经网络的输入权值Win和隐含层的权重Wres在网络训练的过程中不需要调整,输出权重由线性最小二乘方法进行辨识ESN分类器针对基因检测非线性问题具有训练速度快,精度高的优点。4.根据权利要求1所述智能结肠癌癌细胞检测仪,其特征在...

【专利技术属性】
技术研发人员:刘兴高高信腾孙元萌
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1