【技术实现步骤摘要】
一种基于集成学习的细胞类型自动分类方法
[0001]本专利技术属于计算机信息技术医工交叉领域,具体涉及一种基于集成学习的细胞类型自动分类方法。
技术介绍
[0002]单细胞RNA测序技术在目前阶段不同的测序公司的技术还存在着很大的差别,测序所产生的基因表达矩阵受到测序技术的影响、待测细胞类型、待测细胞品质的影响,导致即使是对同一生物的同种器官和组织进行测序,测序的结果也会有巨大的变化。测序结果的变化导致测序所产生的基因表达矩阵在细胞分类的性能上差别很大,同时不同的测序数据对于不同的机器学习分类器的分类效果也不一样。为了应对不同测序数据集需要算法拥有强大的泛化性,如果仅仅使用单一的机器学习算法难以满足不同测序数据集对分类结果的高性能要求。
技术实现思路
[0003]针对上述
技术介绍
中存在的问题,本专利技术提出一种基于集成学习的细胞类型自动分类方法,通过集成学习方法,将多种在单细胞测RNA序领域表现不错的基学习器相结合,集各种基学习器的优点最终通过bagging和投票的方式决定最终的细胞类型。
[0004 ...
【技术保护点】
【技术特征摘要】
1.一种基于集成学习的细胞类型自动分类方法,其特征在于:所述方法包括如下步骤:步骤1,获取单细胞样本数据进行预处理,得到基因表达矩阵;步骤2,特征池的构建;将基因表达矩阵中的基因作为特征,构建一个特征池;步骤3,机器学习算法选择;对特征池中所有的特征进行机器学习算法的训练,比较其分类性能,选择出其中性能较好的分类算法作为后续的集成算法的基分类器;步骤4,特征抽取操作;有放回地从特征池中抽取k个特征,将这些特征用于后续基分类器的学习;步骤5,基分类器学习;利用特征抽取操作得到的特征,对基分类器进行特征的学习,训练基分类器;步骤6,多次重复学习;对每种通过机器学习算法预选出来的基分类器,都重复第4
‑
5步的操作t次;对于n种基分类器,则一共要重复学习nt次;步骤7,投票决定分类类型;将训练好的分类器利用投票进行集成,即nt个基分类器通过投票的方法决定最终的细胞所属细胞类型。2.根据权利要求1所述的一种基于集成学习的细胞类型自动分类方法,其特征在于:步骤1中,预处理包括对原始样本数据质量控制、与参考基因组对比、定量分析、单细胞基因表达矩阵构...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。