一种单细胞转录组数据可用性处理方法、介质及设备技术

技术编号:37488466 阅读:23 留言:0更新日期:2023-05-07 09:27
本发明专利技术公开了一种单细胞转录组数据可用性分析方法,涉及生物数据分析方法。包括以下步骤:根据基因表达量从大到小对barcode进行排序;求得基因表达量变化幅度的拐点;遍历所有拐点,将barcode分类为细胞区、空液滴区和磁珠区并统计相应的barcode数量;提取细胞区所有barcode的表达谱;统计比对上参考基因组的read数,计算细胞的平均read数;当有至少一个拐点对应的基因表达量大于G1,有至少1个拐点对应的基因表达量大于G2小于G1,且细胞区的barcode数量大于K3,空液滴区的barcode数量大于K4,细胞的平均read数大于K6时,判定样本数据可用;否则,判定样本数据不可用。本发明专利技术能系统性地分析单细胞转录组数据的可用性,在下游分析前提供数据可用性预警,节省分析人员的分析时间与精力。析时间与精力。析时间与精力。

【技术实现步骤摘要】
一种单细胞转录组数据可用性处理方法、介质及设备
[0001]相关申请的交叉引用
[0002]本申请是基于申请号为2022113631393,申请日为:2022年11月02日,专利技术名称为:一种单细胞转录组数据可用性分析方法、介质及设备的分案申请。


[0003]本专利技术涉及生物数据分析方法,尤其涉及一种单细胞转录组数据可用性处理方法、介质及设备。

技术介绍

[0004]单细胞转录组测序技术能够获得单个细胞内近万个基因表达信息,并且能够辨别生物组织中各种细胞类型的转录特征,并全面揭示细胞之间基因表达异质性。高通量单细胞测序平台主要是基于序列标签来识别单细胞,其核心技术是给每个细胞添加一个独特的序列标签,在测序时把携带相同标签的核酸序列视为来自同一个细胞。10XGenomics单细胞转录组测序平台为目前应用广泛的一类技术,该平台利用微流控、油滴包裹和barcode标签等技术来实现高通量的细胞分选与捕获,能够一次性分离、并标记500至数万个单细胞,测序后可获得每个细胞的转录组信息,具有细胞通量高、建库成本低、捕获周期短等优势。该技术本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种单细胞转录组数据可用性处理方法,其特征在于,包括以下步骤:S1,根据基因表达量从大到小对barcode进行排序,并赋予排名R
n
,同时,对barcode的排名R
n
和基因表达量C
UMI
进行log
10
处理;S2,求得基因表达量变化幅度的拐点;S3,遍历所有拐点,结合基因表达量的大小将barcode分类为细胞区、空液滴区和磁珠区;S4,统计细胞区、空液滴区、磁珠区的barcode数量;S5,提取细胞区所有barcode的表达谱;S6,统计比对上参考基因组的read数,计算细胞的平均read数;S7,当有至少一个拐点对应的基因表达量大于G1,有至少1个拐点对应的基因表达量大于G2小于G1,且细胞区的barcode数量大于K3,空液滴区的barcode数量大于K4,细胞的平均read数大于K6时,判定样本数据可用;否则,判定样本数据不可用;当样本数据不可用时,进一步判断样本数据不可用的原因:计算不同基因在barcode中的表达比例,并统计表达比例大于P1的第一基因数量和表达比例大于P2的第二基因数量;当仅有一个拐点对应的基因表达量大于G2,且第一基因数量大于K1或第二基因数量大于K2,判定样本数据不可用,原因是实验存在油滴未正确包含细胞悬液;当细胞区的barcode数量小于K3,且空液滴区的barcode数量小于K4时,判定样本数据不可用,原因是实验存在堵孔;当细胞区的barcode数量小于K3,且空液滴区的barcode数量大于K4时,判定样本数据可用性待确认,原因是实验细胞数量过少;当细胞区的barcode数量大于K5,且细胞的平均read数少于K6,判定样本数据不可用,原因是实验细胞数量过多。S8,针对数据可用性情况作出相应处理方法:若样本数据可用,则正常进行后续数据分析;若样本数据因实验存在油滴未正确包含细胞悬液或堵孔不可用,则重新用细胞悬液进行实验;若样本数据因实验细...

【专利技术属性】
技术研发人员:陈哲名郎秋蕾陈志锋
申请(专利权)人:杭州联川基因诊断技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1