【技术实现步骤摘要】
基因对的筛选方法、装置、计算机设备和存储介质
本申请涉及计算机信息处理
,特别是涉及一种基因对的筛选方法、装置、计算机设备和存储介质。
技术介绍
最高得分对(k-TopScoresGenePairs,k-TSP)算法可以用于对基因进行分析,具体地,k-TSP算法将基因表达定量值转换为两个基因相对表达趋势的二进制值。使用k-TSP算法可以筛选基因对,根据筛选出来的基因对,构建基因对分类模型,k-TSP算法可以有效消除由于不同试验方案、平台和测量方法批次引起的批次效应问题;但是,将基因组合成基因对会形成了多种可能的基因对(例如,N个基因可以形成0.5N*(N-1)个基因对),由于数据存在随机性的问题,在使用k-TSP算法筛选基因对的过程中,会产生许多导致基因对分类模型不准确的基因对,也就是会产生噪声较大的基因对,可见,传统使用k-TSP算法筛选基因对,会得到许多噪声较大的基因对。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够在使用k-TSP算法筛选基因对时,避免出现较大噪声基因对的基因对的 ...
【技术保护点】
1.一种基因对的筛选方法,其特征在于,包括:/n获取至少两个的第一基因对集合;所述第一基因对集合是利用k-TSP算法对基因对筛选样本进行筛选得到的;各个第一基因对集合对应不同的基因对筛选样本;/n根据各个第一基因对集合分别构建对应的k-TSP分类器;/n利用所述k-TSP分类器,分别对所述基因对筛选样本进行筛选,得到至少两个的第二基因对集合;各个第二基因对集合对应不同的基因对筛选样本;/n在所述第二基因对集合中,选取出现次数达到预设值的目标基因对。/n
【技术特征摘要】
1.一种基因对的筛选方法,其特征在于,包括:
获取至少两个的第一基因对集合;所述第一基因对集合是利用k-TSP算法对基因对筛选样本进行筛选得到的;各个第一基因对集合对应不同的基因对筛选样本;
根据各个第一基因对集合分别构建对应的k-TSP分类器;
利用所述k-TSP分类器,分别对所述基因对筛选样本进行筛选,得到至少两个的第二基因对集合;各个第二基因对集合对应不同的基因对筛选样本;
在所述第二基因对集合中,选取出现次数达到预设值的目标基因对。
2.根据权利要求1所述的方法,其特征在于,当所述基因对筛选样本中存在针对同一种类别的至少两个子类时,获取第一基因对集合的步骤,包括:
对所述基因对筛选样本进行子类分类,得到至少两个子类筛选样本;各个子类筛选样本对应不同的子类;
利用所述k-TSP算法,分别对所述子类筛选样本进行筛选,得到至少两个的基因对子集;所述基因对子集对应不同的所述子类筛选样本;
合并所述至少两个的基因对子集,得到第一基因对集合。
3.根据权利要求1所述的方法,其特征在于,在所述获取至少两个的第一基因对集合的步骤之前,还包括:
获取基因对样本;所述基因对样本包括多个病例的基因对,各个病例在所述基因对样本中有对应的类别;
按照预先设定的抽取个数,对所述基因对样本进行至少两次随机抽取处理,得到至少两个基因对筛选样本;所述基因对筛选样本包括的病例个数与所述抽取个数对应,各个基因对筛选样本对应不同次数的随机抽取处理。
4.根据权利要求3所述的方法,其特征在于,在所述第二基因对集合中,选取出现次数达到预设值的目标基因对的步骤之后,还包括:
利用所述基因对样本,对所述目标基因对进行AUROC评估;
根据AUROC评估的评估结果,从所述目标基因对中选取基因对,作为第一特征基因对;
从基因对测试样本中,获取与所述第一特征基因对对应的第一基因表达值和第二基因表达值;
根据所述第一基因表达值和所述第二基因表达值的相对大小,将所述第一特征基因对归入所述基因对样本中的其中一...
【专利技术属性】
技术研发人员:钟嘉泳,梁会营,黄庆生,高欢,
申请(专利权)人:广州市妇女儿童医疗中心广州市妇幼保健院,广州市儿童医院,广州市妇婴医院,广州市妇幼保健计划生育服务中心,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。