【技术实现步骤摘要】
一种在线整合多来源单细胞数据的方法和系统
[0001]本专利技术涉及生物
,尤其涉及一种在线整合多来源单细胞数据的方法和系统。
技术介绍
[0002]单细胞测序技术(scRNA
‑
seq)和单细胞表观基因组技术(scATAC
‑
seq)能够分解不同的细胞类型和情形,阐明了组织规则和各种系统的功能。随着单细胞研究的爆发性累积,不同环境的实验数据的整合分析,对于异质细胞群的特征化就很必要,然而关键的生物信息经常混有由不同的样品供体、条件、分析平台导致的批次效应。在检测批次效应时,经常记录实验中时间这个变量,然后对差异表达的基因进行聚类,看是否都和时间相关,如果相关就证明存在batch effect。
[0003]一般来说,不同平台的数据,同一平台的不同时期的数据,同一个样品不同试剂的数据,以及同一个样品不同时间的数据等等都会产生一种batch effect。这种影响如果广泛存在应该被足够重视,否则会导致整个实验和最终的结论失败。如果不同平台的数据之间存在batch effect, ...
【技术保护点】
【技术特征摘要】
1.一种在线整合多来源单细胞数据的方法,其特征在于,该方法包括:输入多个不同来源的具有批次效应的单细胞数据;通过批次效应无关的编码器将所述单细胞数据投射到与批次效应无关的、泛化的仅保留生物学信息的单细胞空间;将不同来源的相同类型的细胞在所述单细胞空间对齐,不同类型的细胞分别各自进行定位,彼此分开;通过特异性解码器将特定批次变量信息加入到单细胞空间的各单细胞信息,以重建单细胞数据。2.根据权利要求1所述的方法,其特征还在于,该方法还包括:利用轮廓分数silhouette score量化细胞类型区分的程度;利用批次熵混合分数batch entropy mixing score量化不同批次之间相同细胞类型对齐的程度。3.根据权利要求1所述的方法,其特征还在于,通过批次效应无关的编码器将所述单细胞数据投射到与批次效应无关的、泛化的仅保留生物学信息的单细胞空间,包括:对所有输入的不同来源的不同批次的单细胞数据整体进行随机采样,形成小批量数据minibatch;对所述小批量数据进行归一化处理batch normalization,以减少分布偏差。4.根据权利要求1所述的方法,其特征还在于,将不同来源的相同类型的细胞在所述单细胞空间对齐,包括:通过构建具有共同的细胞类型的测试数据集,对部分重叠的数据集中的主要细胞类型进行下采样,以组合部分重叠的数据集。5.根据权利要求1所述的方法,其特征还在于,还包括:在所述单细胞空间构建后,将附加数据投射到所述已建立的单细胞空间上。6.根据权利要求5所述的分析方法,其特征还在于,将附加数据投射到与其相似的细胞靠近的新位置上。7.根据权利要求1所述的分析方法,其特征还在于,将不同来源的相同类型的细胞在所述单细胞空间对齐,不同类型的细胞分别各...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。