一种基因微阵列数据分析处理方法技术

技术编号:38036236 阅读:12 留言:0更新日期:2023-06-30 11:02
本发明专利技术公开了一种基因微阵列数据分析处理方法,涉及生物医学信息处理技术领域,包括:利用微阵列技术,获得基因表达数据;构建多个低维度特征选择任务;通过多任务伪仿射变换算法得到最优特征子集;根据最优特征子集,训练神经网络模型;对待预测基因进行分析处理并预测是否患病。本发明专利技术的基因微阵列数据分析处理方法,通过对基因微阵列数据特征分析,对基因微阵列数据有助于挖掘疾病特征基因信息,对疾病的早期发现、临床治疗及疾病预防有着关键作用。用。用。

【技术实现步骤摘要】
一种基因微阵列数据分析处理方法


[0001]本专利技术涉及生物医学信息处理
,尤其涉及一种基因微阵列数据分析处理方法。

技术介绍

[0002]基因芯片技术是高效的、大规模的基因数据获取技术,可以同时研究数以万计的基因表达与疾病之间的关系。基因芯片技术可以用于基因突变诊断,新药研发,疾病诊断和个体化医疗等众多应用。通过数据分析可以从基因水平上揭示癌症的本质。在生物医学中,基因表达数据(也称微阵列数据)的特点是维数高、样本数量少,真正与疾病相关的基因极为稀少。由于数据维数很高对后续的分类造成效率低下,而且过多的基因会导致噪声的增加,影响分类效果。
[0003]实际上,影响样样本分类的往往只是很少一部分关键基因。因此,关键的问题是采用高效的数据分析算法,并通过计算找出基因表达谱数据中的有效基因。特征选择是一个重要的数据预处理步骤。特征选择的主要思想是通过从原始数据集的特征空间中删除不相关和冗余的特征来选择最有价值的特征子集,以提高模型的预测精度、鲁棒性和可解释性。它可以分为四个步骤:生成特征子集、评估特征子集、设置停止标准和判断停止是否足够,以及验证最终结果。假设有n个特征,每个特征都可以选择或不选择,那么特征子集有2n个情况。当n非常大时,由于时间复杂性,通过穷举选择来获得最佳特征子集显然是不可行的。因此,从特征空间中快速有效地找到最佳特征是必须考虑和解决的一个重要问题。
[0004]综上,亟需研究一种基因微阵列数据分析处理方法。

技术实现思路

[0005]为解决上述技术问题,本专利技术公开了一种基因微阵列数据分析处理方法,通过对基因微阵列数据特征分析,对基因微阵列数据有助于挖掘疾病特征基因信息,对疾病的早期发现、临床治疗及疾病预防有着关键作用。
[0006]为实现上述目的,本专利技术采用下述技术方案:
[0007]本专利技术第一方面提供了一种基因微阵列数据分析处理方法,包括如下步骤:
[0008]步骤S1.利用微阵列技术,获得基因表达数据;
[0009]步骤S2.构建多个低维度特征选择任务;
[0010]步骤S3.通过多任务伪仿射变换算法得到最优特征子集;
[0011]步骤S4.根据最优特征子集,训练神经网络模型;
[0012]步骤S5.对待预测基因进行分析处理并预测是否患病。
[0013]可选地,步骤S1中,利用微阵列技术,获得基因表达数据的步骤,具体包括:
[0014]步骤S11.制备基因芯片:将探针固定在载体上,形成DNA微阵列;
[0015]按特定的排列方式将称为探针的寡核苷酸、肤核苷酸或c DNA片段固定在玻片、石英晶片或尼龙膜等载体上,形成DNA微阵列;
[0016]步骤S12.制备荧光标记探针:在样品标记成为探针前需要先进行纯化、逆转录或扩增。在PCR(聚合酶链式反应)扩增过程中,需要同时对样品进行标记;
[0017]步骤S13.标记探针与芯片杂交:根据探针的类型、长度以及芯片的应用等选择合适的杂交条件,将已制备的荧光探针与芯片进行杂交,经过适当的洗脱步骤,洗去未结合的探针,用激光激发芯片上的样品发射荧光;
[0018]步骤S14.扫描杂交图谱:用特定波长的激光激发杂交后的芯片,芯片上的探针会发出不同波长的荧光,然后用激光共聚焦荧光检测系统检测探针的荧光强度,严格配对的杂交分子荧光信号较强,不完全杂交的分子荧光较弱;
[0019]步骤S15.数据提取:通过专用软件处理分析,可从杂交图像中提取出基因表达数据,即将原始杂交图像转化为基因表达谱数据。
[0020]可选地,步骤S2中,构建多个低维度特征选择任务的步骤,具体包括:
[0021]步骤S21.通过ReliefF和最小冗余度最大相关性(Minimum Redundancy Maximum Relevance,MRMR)过滤式特征分析方法分析每个基因权重;
[0022]步骤S22.基于ReliefF算法构建2个特征选择任务;
[0023]步骤S23.基于MRMR算法构建2个特征选择任务。
[0024]可选地,步骤S22中,基于ReliefF算法构建2个特征选择任务的步骤,具体包括:
[0025]步骤S221.通过ReliefF算法得到的每个基因的权重;
[0026]步骤S222.产生一个随机数,比较ReliefF的权重阈值和随机数的大小;
[0027]步骤S223.重复步骤S222,决定每一个基因是否被选择,将所有被选择的基因构成第1个低纬度特征选择任务;
[0028]步骤S224.重复步骤S222,决定每一个基因是否被选择,将所有被选择的基因构成第2个低纬度特征选择任务。
[0029]可选地,步骤S23中,基于MRMR算法构建2个特征选择任务的步骤,具体包括:
[0030]步骤S231.通过MRMR算法得到的每个基因的权重;
[0031]步骤S232.产生一个随机数,比较MRMR的权重阈值和随机数的大小;
[0032]步骤S233.重复步骤S232,决定每一个基因是否被选择,将所有被选择的基因构成第3个低纬度特征选择任务;
[0033]步骤S234.重复步骤S232,决定每一个基因是否被选择,将所有被选择的基因构成第4个低纬度特征选择任务。
[0034]可选地,步骤S3中,通过多任务伪仿射变换算法得到最优特征子集的步骤,包括:
[0035]步骤S31.设置种群数量n,最大迭代次数T;随机初始化种群X,并用式(1)作为目标函数
[0036]f(x)=0.99*accuracy+0.01*|S|/|C|
ꢀꢀꢀꢀ
(1)
[0037]其中,accuracy表示使用分类算法得到的预测准确率,|S|表示选择的基因的个数,|C|表示所有基因的个数;
[0038]步骤S32.用下三角矩阵初始化选择矩阵M
tmp
,随机打乱M
tmp
的行和列,得到最终的选择矩阵M;
[0039]步骤S33.计算选择矩阵的反转矩阵是对M的矩阵元素的二进制逆运算得到的,二进制逆运算意味着矩阵M中元素0将逆变换成1,元素1将逆变换变成0;
[0040]步骤S34.计算变异矩阵B,产生随机数,并与指定阈值比较,若随机数小于阈值,则进行子任务内交流,否则进行子任务间交流;
[0041]步骤S35.通过sigmoid传递函数将矩阵B中的每个元素转换为二值形式,如式(4)所示,
[0042][0043]其中,rand表示[0,1]的随机数;
[0044]步骤S36.通过式(5)得到新的解的位置X,
[0045][0046]其中,表示矩阵的点乘,与Matlab中“.*”运算方式相同;
[0047]步骤S37.判断新解位置是否由于原始位置,如果优于,则替换原始位置;
[0048]步骤S38.重复执行步骤S32

S37,直本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因微阵列数据分析处理方法,其特征在于,包括如下步骤:步骤S1.利用微阵列技术,获得基因表达数据;步骤S2.构建多个低维度特征选择任务;步骤S3.通过多任务伪仿射变换算法得到最优特征子集;步骤S4.根据最优特征子集,训练神经网络模型;步骤S5.对待预测基因进行分析处理并预测是否患病。2.如权利要求1所述的一种基因微阵列数据分析处理方法,其特征在于,步骤S1中,利用微阵列技术,获得基因表达数据的步骤,具体包括:步骤S11.制备基因芯片:将探针固定在载体上,形成DNA微阵列;步骤S12.制备荧光标记探针;步骤S13.标记探针与芯片杂交;步骤S14.扫描杂交图谱;步骤S15.数据提取,从杂交图像中提取出基因表达数据,将原始杂交图像转化为基因表达谱数据。3.如权利要求1所述的一种基因微阵列数据分析处理方法,其特征在于,步骤S2中,构建多个低维度特征选择任务的步骤,具体包括:步骤S21.通过ReliefF和和最小冗余度最大相关性过滤式特征分析方法分析每个基因权重;步骤S22.基于ReliefF算法构建2个特征选择任务;步骤S23.基于最小冗余度最大相关性算法构建2个特征选择任务。4.如权利要求3所述的一种基因微阵列数据分析处理方法,其特征在于,步骤S22中,基于ReliefF算法构建2个特征选择任务的步骤,具体包括:步骤S221.通过ReliefF算法得到每个基因的权重;步骤S222.产生一个随机数,比较ReliefF的权重阈值和随机数的大小;步骤S223.重复步骤S222,决定每一个基因是否被选择,将所有被选择的基因构成第1个低纬度特征选择任务;步骤S224.重复步骤S222,决定每一个基因是否被选择,将所有被选择的基因构成第2个低纬度特征选择任务。5.如权利要求3所述的一种基因微阵列数据分析处理方法,其特征在于,步骤S23中,基于最小冗余度最大相关性算法构建2个特征选择任务的步骤,具体包括:步骤S231.通过最小冗余度最大相关性算法得到每个基因的权重;步骤S232.产生一个随机数,比较最小冗余度最大相关性的权重阈值和随机数的大小;步骤S233.重复步骤S232,决定每一个基因是否被选择,将所有被选择的基因构成第3个低纬度特征选择任务;步骤S234.重复步骤S232,决定每一个基因是否被选择,将所有被选择的基因构成第4个低纬度特征选择任务。6.如权利要求1所述的一种基因微阵列数据分析处理方法,其特征在于,步骤S3中,通过多任务伪仿射变换算法得到最优特征子集的步骤,包括:步骤S31.设置种群数量n,最大迭代次数T;随机初始化种群X,并用下式作为目标函数,
f(x)=0.99*accuracy+0.01*S/C其中,accuracy表示使用分类算法得到的预测准确率,|S|表示选择的基因的个数,|C|表示所有基因的个数;步骤S32.用下三角矩阵初始化选择矩阵M
tmp
,随机打乱M
tmp
的行和列,得到最终的选择矩阵M;步骤S33.计算选择矩阵的反转矩阵是对M的矩阵元...

【专利技术属性】
技术研发人员:朱淑娟庄仲杰潘正祥吴祖揚陈建铭
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1