基因分类方法与装置制造方法及图纸

技术编号:19745841 阅读:15 留言:0更新日期:2018-12-12 04:50
本发明专利技术涉及基因分类方法与装置,根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;利用蚁群算法在所述候选基因集中选取最优基因子集,并利用该基因子集进行基因分类。本发明专利技术首先采用属性加权算法初步筛选出候选基因集,然后再在候选基因集中进行再次筛选,利用蚁群算法再在候选基因集中选取基因子集,有效地去除了冗余或无效的基因。

【技术实现步骤摘要】
基因分类方法与装置
本专利技术属于基因分类
,具体涉及基因分类方法与装置。
技术介绍
基因数据分类是当下信息和决策领域的研究重点和热点问题,由于基因数据具有小样本、高维数、高噪声、高冗余等特点,采用传统数据分析方法可能面临耗费时间较长、分类精度不足等问题。由于基因数据的这些特点,基因数据处理是实现基因表达数据分类高效、准确、可靠的必要步骤。ReliefF算法(属性加权算法)是典型的Filter方法,是效率较高的维数约简方法,主要用于解决多分类、数据缺失和存在噪声等问题。其核心思想是一种权值搜索的属性子集选择方法,它为每个属性赋予一个权值,这个权值表征了属性与类别的相关性,其思想为好的属性应该使同类的样本接近,不同类的样本之间远离,通过不断调整权值逐步凸现属性的相关程度。例如,吴辰文等撰写的《基于ReliefF和蚁群算法的基因选择方法》(该论文发表在期刊《计算机应用研究》的2018年第35卷第9期第31页到第35页),该论文中基于特征权重的算法在基因选择时仅能提高标签关联度高的权重,剔除权重值低的基因,不能有效的去除冗余基因。蚁群算法是一种用于求解组合优化问题的元启发式方法,其思想是模拟生物世界中蚂蚁觅食行为。蚂蚁在搜索食物时,在其走过的路径上释放一种信息激素,以此指导自己和同类的运动方向。当某些路径上走过的蚂蚁越多时,信息素强度就越大,后来蚂蚁选择该路径的概率也越高,从而更增加了该路径的信息素强度。例如,夏亚梅等撰写的《基于改进蚁群算法的服务组合优化》(该论文发表在期刊《计算机学报》的2012年第35卷第2期的第2270页到第2281页),该文章中基于蚁群算法在选择特征时存在收敛速度慢、极易陷入局部最优等缺点。
技术实现思路
本专利技术的目的是提供一种基因分类方法与装置,用于解决现有技术无法有效去除冗余或无效基因的问题。为解决上述技术问题,本专利技术提出一种基因分类方法,包括以下步骤:1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类。本专利技术首先设定基因的变异系数,采用属性加权算法初步筛选出前N1个基因作为候选基因集,然后再在候选基因集中进行再次筛选,利用蚁群算法在候选基因集中选取基因子集,有效去除了冗余或无效的基因。为了避免随意选取基因样本导致配置的权重系数不准确,进一步,步骤1)还包括:获取基因表达谱数据集,基因表达谱数据集包括M个基因样本,M≥2,每个基因样本包括N个基因;将M个基因样本分成同类基因样本和不同类基因样本,在同类基因样本中,对每种基因挑取样本数据求均值作为对应基因样本实例的值,按照属性加权算法依据基因样本实例对每个基因配置权重系数,得到每个基因在各基因样本中的权重系数。为了避免训练数据的溢出,另外也能简化规则,更易于用户的理解,还包括对所述候选基因集中的N1个基因进行规则剪枝,保留权重系数大于平均权重系数的基因。为了提高基因的信息素浓度,信息素会随着时间的流逝被淹没,进一步,步骤1)中每个基因的权重系数的更新公式如下:式中,A0是原始基因表达谱数据集的基因集,A是筛选后的基因表达谱数据集的基因子集,W[A]为更新后的权重系数,W[A0]为更新前的权重系数,CVnear为同类的最近邻基因样本集合的差异系数,diff(A,xi,H)为基因样本xi与H内各基因样本在基因样本属性A上的差异量化表示,xi为第i个基因样本,H表示与基因样本xi同类的最近邻基因样本集合,m为累积重复次数,k为最近邻样本个数,CVmiss为不同类的最近邻基因样本集合的差异系数,P(C)为目标样本数C占样本总数的比例,Mj(C)代表不同类别C中的第j个最近邻样本,P(class(xi))为xi类目标样本数占样本总数的比例,diff(A,xi,Mj(C))为基因样本xi与Mj(C)内各基因样本在基因样本属性A上的差异化量。进一步,采用欧氏距离算法分别求取与基因样本xi同类的最近邻基因样本集合,以及与基因样本xi不同类的最近邻基因样本集合。为了突出反映变量之间相关关系的密切程度,增大相关性大的路径可见度,进一步,所述蚁群算法中采用以下适应度函数在所述候选基因集中选取下一基因:式中,为蚁群算法中t时刻蚂蚁k从i基因到j基因的概率分布,ω为所述权重系数的绝对值,r为卡尔皮尔逊相关系数,为在t时刻从i基因到j基因的路径上残留的信息素,为在t时刻从i基因到下一步允许选择的s基因的路径上残留的信息素,为i基因和j基因在t时刻的期望启发函数,通常定义为i基因和j基因间距离的倒数,为i基因和蚂蚁下一步允许选择的s基因间距离的倒数,allowedk为蚂蚁下一步允许选择的基因。为提高重要基因的信息素浓度,防止蚂蚁留下的信息素随着时间的流逝被淹没,所述蚁群算法中采用如下蚁群的信息素更新公式:τij(t+Δt)=(1-ρ)τij(t)+Δτij(t)+ω(j)式中,t为时刻,τij(t+Δt)为i基因和j基因更新后的信息素值,Δτij(t)为所有蚂蚁走过之后增加的信息素总和,ρ为信息素挥发系数,为第k只蚂蚁在本次循环中残留的信息素,为第k只蚂蚁在本次循环中残留的信息素的总和,ω(j)为基因j的权重系数的绝对值,Q为信息素的强度,Lk为第k只蚂蚁在当次循环中所经过的距离。为解决上述技术问题,本专利技术还提出一种基因分类装置,包括处理单元,用于执行实现以下步骤的指令:1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类。进一步,步骤1)中每个基因的权重系数的更新公式如下:式中,A0是原始基因表达谱数据集的基因集,A是筛选后的基因表达谱数据集的基因子集,W[A]为更新后的权重系数,W[A0]为更新前的权重系数,CVnear为同类的最近邻基因样本集合的差异系数,diff(A,xi,H)为基因样本xi与H内各基因样本在基因样本属性A上的差异量化表示,xi为第i个基因样本,H表示与基因样本xi同类的最近邻基因样本集合,m为累积重复次数,k为最近邻样本个数,CVmiss为不同类的最近邻基因样本集合的差异系数,P(C)为目标样本数C占样本总数的比例,Mj(C)代表不同类别C中的第j个最近邻样本,P(class(xi))为xi类目标样本数占样本总数的比例,diff(A,xi,Mj(C))为基因样本xi与Mj(C)内各基因样本在基因样本属性A上的差异化量。进一步,步骤1)还包括:获取基因表达谱数据集,基因表达谱数据集包括M个基因样本,M≥2,每个基因样本包括N个基因;将M个基因样本分成同类基因样本和不同类基因样本,在同类基因样本中,对每种基因挑取样本数据求均值作为对应基因样本实例的值,按照属性加权算法依据基因样本实例对每个基因配置权重系数,得到每个基因在各基因样本中的权重系数。进一步,还包括对所述候选基因集中的N1个基因进行规则剪枝,保留权重系数大于平均权重系数的基因。进一步,采用欧氏距离算法分别求取本文档来自技高网
...

【技术保护点】
1.一种基因分类方法,其特征在于,包括以下步骤:1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类。

【技术特征摘要】
1.一种基因分类方法,其特征在于,包括以下步骤:1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类。2.根据权利要求1所述的基因分类方法,其特征在于,步骤1)中每个基因的权重系数的更新公式如下:式中,A0是原始基因表达谱数据集的基因集,A是筛选后的基因表达谱数据集的基因子集,W[A]为更新后的权重系数,W[A0]为更新前的权重系数,CVnear为同类的最近邻基因样本集合的差异系数,diff(A,xi,H)为基因样本xi与H内各基因样本在基因样本属性A上的差异量化表示,xi为第i个基因样本,H表示与基因样本xi同类的最近邻基因样本集合,m为累积重复次数,k为最近邻样本个数,CVmiss为不同类的最近邻基因样本集合的差异系数,P(C)为目标样本数C占样本总数的比例,Mj(C)代表不同类别C中的第j个最近邻样本,P(class(xi))为xi类目标样本数占样本总数的比例,diff(A,xi,Mj(C))为基因样本xi与Mj(C)内各基因样本在基因样本属性A上的差异化量。3.根据权利要求1所述的基因分类方法,其特征在于,步骤1)还包括:获取基因表达谱数据集,基因表达谱数据集包括M个基因样本,M≥2,每个基因样本包括N个基因;将M个基因样本分成同类基因样本和不同类基因样本,在同类基因样本中,对每种基因挑取样本数据求均值作为对应基因样本实例的值,按照属性加权算法依据基因样本实例对每个基因配置权重系数,得到每个基因在各基因样本中的权重系数。4.根据权利要求1所述的基因分类方法,其特征在于,还包括对所述候选基因集中的N1个基因进行规则剪枝,保留权重系数大于平均权重系数的基因。5.根据权利要求2所述的基因分类方法,其特征在于,采用欧氏距离算法分别求取与基因样本xi同类的最近邻基因样本集合,以及与基因样本xi不同类的最近邻基因样本集合。6.根据权利要求1所述的基因分类方法,其特征在于,所述蚁群算法中采用以下适应度函数在所述候选基因集中选取下一个基因:式中,为蚁群算法中t时刻蚂蚁k从i基因到j基因的概率分布,ω为所述权重系数的绝对值,r为卡尔皮尔逊相关系数,为在t时刻从i基因到j基因的路径上残留的信息素,为在t时刻从i基因到下一步允许选择的s基因的路径上残留的信息素,为i基因和j基因在t时刻...

【专利技术属性】
技术研发人员:孙林孔祥琳陈清利翟瑞冰刘延李源赵婧秦小营殷腾宇王学敏
申请(专利权)人:河南师范大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1