基因分类方法与装置制造方法及图纸

技术编号：19745841 阅读：15 留言：0更新日期：2018-12-12 04:50

本发明专利技术涉及基因分类方法与装置，根据设定基因的变异系数，采用属性加权算法为基因样本中的每个基因配置权重系数，按照权重系数从大到小的顺序，依次选取前N1个基因，作为候选基因集；利用蚁群算法在所述候选基因集中选取最优基因子集，并利用该基因子集进行基因分类。本发明专利技术首先采用属性加权算法初步筛选出候选基因集，然后再在候选基因集中进行再次筛选，利用蚁群算法再在候选基因集中选取基因子集，有效地去除了冗余或无效的基因。

全部详细技术资料下载

【技术实现步骤摘要】
基因分类方法与装置
本专利技术属于基因分类
，具体涉及基因分类方法与装置。
技术介绍
基因数据分类是当下信息和决策领域的研究重点和热点问题，由于基因数据具有小样本、高维数、高噪声、高冗余等特点，采用传统数据分析方法可能面临耗费时间较长、分类精度不足等问题。由于基因数据的这些特点，基因数据处理是实现基因表达数据分类高效、准确、可靠的必要步骤。ReliefF算法(属性加权算法)是典型的Filter方法，是效率较高的维数约简方法，主要用于解决多分类、数据缺失和存在噪声等问题。其核心思想是一种权值搜索的属性子集选择方法，它为每个属性赋予一个权值，这个权值表征了属性与类别的相关性，其思想为好的属性应该使同类的样本接近，不同类的样本之间远离，通过不断调整权值逐步凸现属性的相关程度。例如，吴辰文等撰写的《基于ReliefF和蚁群算法的基因选择方法》(该论文发表在期刊《计算机应用研究》的2018年第35卷第9期第31页到第35页)，该论文中基于特征权重的算法在基因选择时仅能提高标签关联度高的权重，剔除权重值低的基因，不能有效的去除冗余基因。蚁群算法是一种用于求解组合优化问题的元启发式方法，其思想是模拟生物世界中蚂蚁觅食行为。蚂蚁在搜索食物时，在其走过的路径上释放一种信息激素，以此指导自己和同类的运动方向。当某些路径上走过的蚂蚁越多时，信息素强度就越大，后来蚂蚁选择该路径的概率也越高，从而更增加了该路径的信息素强度。例如，夏亚梅等撰写的《基于改进蚁群算法的服务组合优化》(该论文发表在期刊《计算机学报》的2012年第35卷第2期的第2270页到第2281页)，该文章中基...

【技术保护点】
1.一种基因分类方法，其特征在于，包括以下步骤：1)根据设定基因的变异系数，采用属性加权算法为基因样本中的每个基因配置权重系数，按照权重系数从大到小的顺序，依次选取前N1个基因，作为候选基因集；2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集，并利用该基因子集进行基因分类。

【技术特征摘要】
1.一种基因分类方法，其特征在于，包括以下步骤：1)根据设定基因的变异系数，采用属性加权算法为基因样本中的每个基因配置权重系数，按照权重系数从大到小的顺序，依次选取前N1个基因，作为候选基因集；2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集，并利用该基因子集进行基因分类。2.根据权利要求1所述的基因分类方法，其特征在于，步骤1)中每个基因的权重系数的更新公式如下：式中，A0是原始基因表达谱数据集的基因集，A是筛选后的基因表达谱数据集的基因子集，W[A]为更新后的权重系数，W[A0]为更新前的权重系数，CVnear为同类的最近邻基因样本集合的差异系数，diff(A,xi,H)为基因样本xi与H内各基因样本在基因样本属性A上的差异量化表示，xi为第i个基因样本，H表示与基因样本xi同类的最近邻基因样本集合，m为累积重复次数，k为最近邻样本个数，CVmiss为不同类的最近邻基因样本集合的差异系数，P(C)为目标样本数C占样本总数的比例，Mj(C)代表不同类别C中的第j个最近邻样本，P(class(xi))为xi类目标样本数占样本总数的比例，diff(A,xi,Mj(C))为基因样本xi与Mj(C)内各基因样本在基因样本属性A上的差异化量。3.根据权利要求1所述的基因分类方法，其特征在于，步骤1)还包括：获取基因表达谱数据集，基因表达谱数据集包括M个基因样本，M≥2，每个基因样本包括N个基因；将M个基因样本分成同类基因样本和不同类基因样本，在同类基因样本中，对每种基因挑取样本数据求均值作为对应基因样本实例的值，按照属性加权算法依据基因样本实例对每个基因配置权重系数，得到每个基因在各基因样本中的权重系数。4.根据权利要求1所述的基因分类方法，其特征在于，还包括对所述候选基因集中的N1个基因进行规则剪枝，保留权重系数大于平均权重系数的基因。5.根据权利要求2所述的基因分类方法，其特征在于，采用欧氏距离算法分别求取与基因样本xi同类的最近邻基因样本集合，以及与基因样本xi不同类的最近邻基因样本集合。6.根据权利要求1所述的基因分类方法，其特征在于，所述蚁群算法中采用以下适应度函数在所述候选基因集中选取下一个基因：式中，为蚁群算法中t时刻蚂蚁k从i基因到j基因的概率分布，ω为所述权重系数的绝对值，r为卡尔皮尔逊相关系数，为在t时刻从i基因到j基因的路径上残留的信息素，为在t时刻从i基因到下一步允许选择的s基因的路径上残留的信息素，为i基因和j基因在t时刻...

【专利技术属性】
技术研发人员：孙林，孔祥琳，陈清利，翟瑞冰，刘延，李源，赵婧，秦小营，殷腾宇，王学敏，
申请(专利权)人：河南师范大学，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人