当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于帕累托集成剪枝的单细胞数据注释方法及系统技术方案

技术编号:41730411 阅读:15 留言:0更新日期:2024-06-19 12:52
本公开提供了一种基于帕累托集成剪枝的单细胞数据注释方法。该方法包括参考数据集和待注释数据集的预处理;基于多种特征选择方法和机器学习方法的基学习器集合的训练;利用帕累托集成剪枝方法选取最优的基学习器子集;利用选取出来的基学习器子集对待注释数据集进行数据;将子集中每个基学习器的注释结果集成在一起,生成最终的注释。以此方式,基学习器利用参考数据集对每种细胞类型的特征进行学习,并利用帕累托剪枝算法对基学习器进行筛选,提取出最优子集,集成了各个基学习器的优势,同时集成剪枝算法也避免了单一算法在部分场景的应用局限,拓宽了细胞注释方法的应用场景。

【技术实现步骤摘要】

本公开涉及单细胞数据注释,尤其涉及基于帕累托集成剪枝的单细胞细胞类型注释方法及系统。


技术介绍

1、单细胞rna测序(scrna-seq)技术就是在单个细胞水平上,对基因组、转录组及表观基因组水平进行测序分析的技术。单细胞测序技术能够检出混杂样品测序所无法得到的异质性信息,从而很好的解决了传统的在多细胞基础上进行的测序存在的丢失细胞异质性(细胞之间的差异)的信息这一问题。单细胞rna测序大大提高了我们对生物系统的了解,

2、单细胞测序技术首先从细胞群中分离出单细胞。分离出单细胞之后提取、处理和扩增每个细胞的遗传物质。利用得到的细胞遗传物质制备分离细胞遗传物质的测序库。对测序库使用第二代测序仪进行测序。最后根据测序结果来确定每个细胞的类型,进行后续的单细胞分析与应用。

3、确定单细胞类型是单细胞测序技术中尤为重要的一步,准确的细胞标记是单细胞后续应用于组织器官等功能分析、疾病诊断等的必要条件。目前单细胞注释主要基于单一模型或者算法,有些算法存在无法识别复杂数据集中稀少的细胞类型或者无法应用于大数据集的问题,这些问题导致单一算法的模型的本文档来自技高网...

【技术保护点】

1.一种基于帕累托集成剪枝的单细胞数据注释方法,其特征在于,包括:

2.根据权利要求1所述的方法,所述单细胞数据参考数据集和待注释数据集的预处理包括:

3.根据权利要求1所述的方法,通过所述基学习器集合对所述单细胞数据参考数据集进行训练的过程包括:

4.根据权利要求3所述的方法,所述特征选择方法包括:巴特利检验、KS检验、卡方检验、双峰指数或F检验;所述机器学习方法包括:支持向量机、K邻近、随机森林、多层感知器或贝叶斯分类器。

5.根据权利要求1所述的方法,所述利用帕累托集成剪枝方法在所述基学习器集合中选取最优基学习器子集包括:在所述基学习...

【技术特征摘要】

1.一种基于帕累托集成剪枝的单细胞数据注释方法,其特征在于,包括:

2.根据权利要求1所述的方法,所述单细胞数据参考数据集和待注释数据集的预处理包括:

3.根据权利要求1所述的方法,通过所述基学习器集合对所述单细胞数据参考数据集进行训练的过程包括:

4.根据权利要求3所述的方法,所述特征选择方法包括:巴特利检验、ks检验、卡方检验、双峰指数或f检验;所述机器学习方法包括:支持向量机、k邻近、随机森林、多层感知器或贝叶斯分类器。

5.根据权利要求1所述的方法,所述利用帕累托集成剪枝方法在所述基学习器集合中选取最优基学习器子集包括:在所述基学习器种群集合中随机选择一个子集作为候选解,所述种群集合中的每个候选解都用一个n维向量表示,向量的每一位表示对应的基学习器是否在所述候选解中,对所述随机选择的候选解中的向量每一位进行随机突变得到突变解,利用所述突变解与所述基学习器种群集合中的每个候选解的帕累托支配关系来更新所述基学习器种群集合,计算所述突变解与其相距一位的邻域解之间的支...

【专利技术属性】
技术研发人员:李向涛祁琪殷跃范毅
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1