System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于XGBoost的细胞微滴鉴定方法技术_技高网
当前位置: 首页 > 专利查询>张浩专利>正文

一种基于XGBoost的细胞微滴鉴定方法技术

技术编号:39971260 阅读:12 留言:0更新日期:2024-01-09 00:48
本发明专利技术公开了一种基于XGBoost的细胞微滴鉴定方法,涉及单细胞RNA测序技术领域,步骤一:利用RankMSE指标搜寻细胞和空滴的边界并构建训练集,并通过多轮下采样解决训练数据中的类别不平衡问题;步骤二:结合细胞的基因表达量和细胞熵等先预先计算的细胞质控特征,利用机器学习方法XGBoost构建适用于当前数据的细胞-空滴二分类模型;步骤三:细胞-空滴二分类模型经过迭代添加新预测的空滴数据进行重新训练,获得优化后的预测模型;该基于XGBoost的细胞微滴鉴定方法,具有能够在不同数据集中稳健地将细胞鉴定出来的优点,并且可以有效排除数据中的空滴和低质量细胞或细胞碎片,相对于现有技术而言具有更高的精确性和稳定性。

【技术实现步骤摘要】

本专利技术涉及单细胞rna测序,具体为一种基于xgboost的细胞微滴鉴定方法。


技术介绍

1、单细胞rna测序近年来已经逐渐发展成为一项成熟的技术。尤其是基于微流体液滴单细胞测序技术的出现,让单细胞实验的细胞通量有了飞跃式的提升。在这些基于微滴的单细胞捕获方法中,为了确保大部分细胞被单独包裹,需要载入远高于细胞数量的微滴,这导致了大部分的微滴中是不含有细胞的空滴,最终产生数百万个细胞和空滴混合的数据。理想情况下,这种空滴不含任何细胞的rna分子。然而在流体的剪应力作用下,在一些细胞的凋亡、破碎或分泌时,胞质rna、线粒体、核糖体或其他的细胞碎片会流出微滴进入到环境溶液中,这种存在于整个反应环境中的rna称为环境rna(ambient rna)。环境rna进入溶液后随时间不断扩散,并逐渐进入到原本不含有rna的空滴中,从而导致最终的单细胞数据中出现大量含有umi(unique molecular identifier)计数的空滴数据,从而无法直接与细胞加以区分。另外由于扩增等因素,其中一些空滴的umi计数甚至会超过一些低rna含量的细胞,使得其更难与真正的细胞数据相区分。研究人员常选择一个umi计数阈值来筛选细胞,然而这种单一维度的划分会出现两种问题:1.过高的阈值能过滤掉大部分的空滴,但是也会丢失低rna含量的细胞;2.而过低的阈值在获得大部分细胞的同时,也将引入过多的空滴,从而导致错误的分析结论。因此,对于基于微滴的单细胞数据,要从大量的空滴中辨别出真实的细胞仍存在着计算上的挑战。因此提出了一种基于xgboost的细胞微滴鉴定方法。


技术实现思路

1、针对现有技术的不足,本专利技术提供了一种基于xgboost的细胞微滴鉴定方法,解决了上述
技术介绍
中提出的问题。

2、为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于xgboost的细胞微滴鉴定方法,包括以下步骤:

3、步骤一:利用rankmse指标搜寻细胞和空滴的边界并构建训练集,并通过多轮下采样解决训练数据中的类别不平衡问题;

4、步骤二:结合细胞的基因表达量和细胞熵等先预先计算的细胞质控特征,利用机器学习方法xgboost构建适用于当前数据的细胞-空滴二分类模型;

5、步骤三:细胞-空滴二分类模型经过迭代添加新预测的空滴数据进行重新训练,获得优化后的预测模型;

6、步骤四:通过使用细胞-空滴二分类模型对细胞进行鉴定。

7、可选的,所述步骤一:利用rankmse指标搜寻细胞和空滴的边界并构建训练集,并通过多轮下采样解决训练数据中的类别不平衡问题中首先根据ncount_rank和nfeature_rank计算rankmse,并通过rankmse曲线对数据中的所有微滴进行预定义,主要定义成细胞、不确定、空滴和弃置四类标签,所述细胞的预定义标准为第一个谷底处之前的所有微滴,所述不确定定义为第一个谷底至第二个峰的峰顶之间的所有微滴,所述空滴定义为第二个峰顶至第二个谷底处的所有微滴,剩余为rna含量极低但数据量极多的弃置微滴。

8、可选的,所述步骤一:利用rankmse指标搜寻细胞和空滴的边界并构建训练集,并通过多轮下采样解决训练数据中的类别不平衡问题中对预定义标签为细胞和不确定微滴数据进行多轮umi下采样,模拟出在空滴测序深度下的细胞和不确定微滴,并且将两者原本有限的微滴数量扩充至和空滴齐平升至超过空滴的数量,最后将这些下采样后的细胞微滴和预定义的空滴数据作为首轮训练集,将经过标准化后的基因表达矩阵放入xgboost进行训练。

9、可选的,所述步骤三:细胞-空滴二分类模型经过迭代添加新预测的空滴数据进行重新训练,获得优化后的预测模型中第一轮训练结束后,主要对步骤二中模拟的不确定微滴和空滴进行预测打分,并最终根据设定的阈值进行分类,重新调整训练集中的空滴数据,对上一轮空滴数据进行筛选保留,并将本轮中从不确定微滴中新预测为空滴的数据放入训练集,如此反复迭代训练,直至训练误差达到最小,最终获得一个优化模型。

10、可选的,所述步骤三:细胞-空滴二分类模型经过迭代添加新预测的空滴数据进行重新训练,获得优化后的预测模型中将包括模拟微滴数据在内的所有数据,放入有迭代优化后的模型中进行末轮预测,所述细胞和微滴的预测得分由多个模拟微滴取平均值得到,最后结合细胞基尼指数等全局质控指标对微滴综合打分,根据阈值对微滴数据进行分类,阈值默认为0.9,分类结束后对假阳性数量进行预估,并根据预估数量将较低综合得分的细胞微滴重新归为不确定微滴。

11、可选的,所述步骤三:细胞-空滴二分类模型经过迭代添加新预测的空滴数据进行重新训练,获得优化后的预测模型中在进行训练模型之前,为微滴数据进行了线粒体含量比例、核糖体含量比例、细胞熵、细胞冗余度等指标的计算,并加入到了原本只有基因的特征集合中。

12、本专利技术提供了一种基于xgboost的细胞微滴鉴定方法,具备以下有益效果:

13、该基于xgboost的细胞微滴鉴定方法,相较于现有的cellrangerv2,cellrangerv3,emptydrops以及zumis四种常用方法的细胞鉴定能力而言,具有能够在不同数据集中稳健地将细胞鉴定出来的优点,并且可以有效排除数据中的空滴和低质量细胞或细胞碎片,相对于现有技术而言具有更高的精确性和稳定性。

本文档来自技高网...

【技术保护点】

1.一种基于XGBoost的细胞微滴鉴定方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于XGBoost的细胞微滴鉴定方法,其特征在于:所述步骤一:利用RankMSE指标搜寻细胞和空滴的边界并构建训练集,并通过多轮下采样解决训练数据中的类别不平衡问题中首先根据nCount_rank和nFeature_rank计算RankMSE,并通过RankMSE曲线对数据中的所有微滴进行预定义,主要定义成细胞、不确定、空滴和弃置四类标签,所述细胞的预定义标准为第一个谷底处之前的所有微滴,所述不确定定义为第一个谷底至第二个峰的峰顶之间的所有微滴,所述空滴定义为第二个峰顶至第二个谷底处的所有微滴,剩余为RNA含量极低但数据量极多的弃置微滴。

3.根据权利要求1所述的一种基于XGBoost的细胞微滴鉴定方法,其特征在于:所述步骤一:利用RankMSE指标搜寻细胞和空滴的边界并构建训练集,并通过多轮下采样解决训练数据中的类别不平衡问题中对预定义标签为细胞和不确定微滴数据进行多轮UMI下采样,模拟出在空滴测序深度下的细胞和不确定微滴,并且将两者原本有限的微滴数量扩充至和空滴齐平升至超过空滴的数量,最后将这些下采样后的细胞微滴和预定义的空滴数据作为首轮训练集,将经过标准化后的基因表达矩阵放入XGBoost进行训练。

4.根据权利要求1所述的一种基于XGBoost的细胞微滴鉴定方法,其特征在于:所述步骤三:细胞-空滴二分类模型经过迭代添加新预测的空滴数据进行重新训练,获得优化后的预测模型中第一轮训练结束后,主要对步骤二中模拟的不确定微滴和空滴进行预测打分,并最终根据设定的阈值进行分类,重新调整训练集中的空滴数据,对上一轮空滴数据进行筛选保留,并将本轮中从不确定微滴中新预测为空滴的数据放入训练集,如此反复迭代训练,直至训练误差达到最小,最终获得一个优化模型。

5.根据权利要求1所述的一种基于XGBoost的细胞微滴鉴定方法,其特征在于:所述步骤三:细胞-空滴二分类模型经过迭代添加新预测的空滴数据进行重新训练,获得优化后的预测模型中将包括模拟微滴数据在内的所有数据,放入有迭代优化后的模型中进行末轮预测,所述细胞和微滴的预测得分由多个模拟微滴取平均值得到,最后结合细胞基尼指数等全局质控指标对微滴综合打分,根据阈值对微滴数据进行分类,阈值默认为0.9,分类结束后对假阳性数量进行预估,并根据预估数量将较低综合得分的细胞微滴重新归为不确定微滴。

6.根据权利要求1所述的一种基于XGBoost的细胞微滴鉴定方法,其特征在于:所述步骤三:细胞-空滴二分类模型经过迭代添加新预测的空滴数据进行重新训练,获得优化后的预测模型中在进行训练模型之前,为微滴数据进行了线粒体含量比例、核糖体含量比例、细胞熵、细胞冗余度等指标的计算,并加入到了原本只有基因的特征集合中。

...

【技术特征摘要】

1.一种基于xgboost的细胞微滴鉴定方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于xgboost的细胞微滴鉴定方法,其特征在于:所述步骤一:利用rankmse指标搜寻细胞和空滴的边界并构建训练集,并通过多轮下采样解决训练数据中的类别不平衡问题中首先根据ncount_rank和nfeature_rank计算rankmse,并通过rankmse曲线对数据中的所有微滴进行预定义,主要定义成细胞、不确定、空滴和弃置四类标签,所述细胞的预定义标准为第一个谷底处之前的所有微滴,所述不确定定义为第一个谷底至第二个峰的峰顶之间的所有微滴,所述空滴定义为第二个峰顶至第二个谷底处的所有微滴,剩余为rna含量极低但数据量极多的弃置微滴。

3.根据权利要求1所述的一种基于xgboost的细胞微滴鉴定方法,其特征在于:所述步骤一:利用rankmse指标搜寻细胞和空滴的边界并构建训练集,并通过多轮下采样解决训练数据中的类别不平衡问题中对预定义标签为细胞和不确定微滴数据进行多轮umi下采样,模拟出在空滴测序深度下的细胞和不确定微滴,并且将两者原本有限的微滴数量扩充至和空滴齐平升至超过空滴的数量,最后将这些下采样后的细胞微滴和预定义的空滴数据作为首轮训练集,将经过标准化后的基因表达矩阵放入xgboost进行训练。

4.根据权利要求1所述的一种基于xgboost的细胞微...

【专利技术属性】
技术研发人员:张浩孙宏芝
申请(专利权)人:张浩
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1