一种基因表达量特征选择方法技术

技术编号:33655419 阅读:29 留言:0更新日期:2022-06-02 20:34
本发明专利技术提供了一种基因表达量特征选择方法,涉及生物信息学和机器学习领域,以原始基因表达量数据集和候选特征子集对应的基因表达量数据集分别与类别向量之间的联合互信息是否相等作为最大相关性的判断条件,将最大条件互信息公式作为目标函数,迭代选择满足目标函数的基因特征来获取具有最大相关性的候选特征子集,再通过删除候选特征子集中的冗余特征,从而能够筛选出同时具有最大相关性和最小冗余度的最小特征子集。冗余度的最小特征子集。冗余度的最小特征子集。

【技术实现步骤摘要】
一种基因表达量特征选择方法


[0001]本专利技术涉及生物信息学和机器学习
,特别是涉及一种基于最大条件互信息的基因表达量特征选择方法。

技术介绍

[0002]近年来,癌症已经成为影响人类健康的重要因素之一。癌症的产生和发展与基因密切相关,将基因表达数据用于癌症的早期诊断对癌症的发现和治疗具有重要的意义。
[0003]而基因表达数据通常包含数千个甚至上万个特征,其中大多数特征之间会产生严重的多重共线性,从而影响了机器学习算法的性能和精度,这一现象也被称为“维度灾难”。特征选择方法是解决数据降维问题的一种有效手段,但现有的特征选择方法由于缺乏准确的相关性和冗余评估公式,因而其难以保证所选特征子集与目标分类之间同时具有最大相关性和最小冗余度,且对于高维数据集来说,现有的搜索方法,例如穷举搜索、完全搜索、启发式搜索以及随机搜索等方法,存在计算量较大且搜索结果不理想的问题。
[0004]因此,亟需一种基因表达量特征选择方法,以选择出同时与目标分类具有最大相关性和最小冗余度特性且具有最少数量基因特征的最小特征子集
专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因表达量特征选择方法,其特征在于,包括:计算原始基因表达量数据集与肿瘤的类别向量之间的第一联合互信息;选取一候选特征子集,使得所述候选特征子集对应的基因表达量数据集与所述类别向量之间的第二联合互信息等于所述第一联合互信息,并且所述候选特征子集为所述原始基因表达量数据集对应的原始基因特征集的最小特征子集;根据冗余特征判断公式按照基因特征被选择顺序的倒序,逐一判断候选特征子集中的每个基因特征是否为冗余特征;将所有冗余的基因特征从所述候选特征子集中剔除,得到最优特征子集。2.根据权利要求1所述的基因表达量特征选择方法,其特征在于,在所述计算原始基因表达量数据集与肿瘤的类别向量之间的第一联合互信息之前,还包括:对所述原始基因表达量数据集中非离散值的基因表达量向量离散化处理;将离散化处理后的原始基因表达量数据集作为新的原始基因表达量数据集。3.根据权利要求1所述的基因表达量特征选择方法,其特征在于,所述候选特征子集的选取过程具体包括:设置所述候选特征子集的初始值为空集;根据最大条件互信息公式从所述原始基因特征集减去当前的所述候选特征子集后的集合中选择具有最大条件互信息的基因特征;将所述具有最大条件互信息的基因特征放入当前的所述候选特征子集中;判断当前的所述候选特征子集对应的基因表达量数据集与所述类别向量之间的第二联合互信息是否等于所述第一联合互信息;若是,则将当前的所述候选特征子集作为最终的候选特征子集;若否,则返...

【专利技术属性】
技术研发人员:盖凌云时鸿涛
申请(专利权)人:青岛农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1