【技术实现步骤摘要】
基于互近邻的单细胞转录组批次矫正方法
[0001]本专利技术属于数据挖掘
,具体涉及一种单细胞转录组批次矫正方法,可用于生物信息学实验中对单细胞转录组数据的预处理。
技术介绍
[0002]随着单细胞测序技术的发展和测序成本的下降,越来越多的单细胞数据被产生。在生物信息学中,多源scRNA
‑
seq数据集的集成对于解释复杂生物系统中细胞间的异质性和相互作用至关重要。然而,多源数据之间往往存在着批次效应,这种效应很难去除但可以缩小。如果效应比较小是可以接受的,但如果批次效应很严重,就可能会与真实的生物学差异相混淆。
[0003]为了解决这一问题,已经有很多方法被提出,其中有很多批次矫正方法是基于互近邻策略的。基于互近邻策略的方法在时间效率上有着显著优势,许多基于互近邻的方法批次矫正的结果非常好。但是互近邻策略使用局部匹配的MNN对进行全局矫正,因此基于互近邻策略的方法的批次矫正效果依赖于MNN对匹配的数量和准确性。
[0004]2018年Haghverdi等人在Nature biotech ...
【技术保护点】
【技术特征摘要】
1.一种基于互近邻单细胞转录组批次矫正方法,其特征在于,包括如下步骤:(1)使用单细胞转录组测序技术对样本中的每一个细胞测量其基因表达值,产生多批次单细胞转录组数据;(2)对单细胞转录组数据中的基因进行特征选择,即从数据的基因中筛选出方差最大的前2000个基因作为高表达基因;(3)构建一个由编码器和解码器组成自编码器;(4)构建自编码器的损失函数:(4a)从每个批次数据中随机抽取一个细胞构成训练样本集x:x=(x1,x2,
…
,x
i
,
…
,x
m
),其中x
i
表示来自第i个批次的细胞数据,i取值范围为1到m,m为批次数量;(4b)每次给自编码器输入一个训练样本集,自编码器中的编码器将x
i
编码成低维嵌入无批次信息z
i_bio
和批次噪声z
i_nio
:z
bio
=(z
1_bio
,z
2_bio
,
…
,z
i_bio
,
…
,z
m_bio
),z
nio
=(z
1_nio
,z
2_nio
,
…
,z
i_nio
,
…
,z
m_nio
);其中,z
i_nio
使用one
‑
hot
‑
vector表示,维度为批次数量m;z
i_nio
的维度为1和0,即第i个维度为1,其他维度都是0;(4c)将从编码器获得的z
bio
和z
nio
作为解码器部分的输入,通过解码器将z
bio
还原成原始维度的数据称为原始伪细胞;(4d)根据原始样本集x和伪细胞计算自编码器的重构损失:(4e)对从编码器获得的z
bio
添加随机噪声z
nio_ran
,并将z
bio
和z
nio_ran
输入到解码器中,得到随机噪声伪细胞再把输入到编码器中,获得去除随机噪声后的低维嵌入无批次信息z
bio_c
;(4f)利用z
bio
和z
bio_c
计算自编码器的内容损失:L
c
=||z
bio
‑
z
bio_c
||;(4g)根据自编码器的重构损失L
r
和自编码器的内容损失L
c
,构建自编码器损失函数为(5)使用m个批次单细胞转录组数据对自编码器中编码器与解码器进行交叉训练,直到损失函数L收敛为止,得到训练好的自编码器;(6)将m个批次单细胞转录组数据输入到训练好的自编码器进行特征提取和初步批次矫正,得到低维嵌入无批次信息数据集Z=(Z1,Z2,
…
,Z
i
,
…
,Z
m
),其中Z
i
表示第i个批次数据经过编码器特征提取后的维嵌入无批次信息数据。(7)对低维嵌入无批次信息数据集Z进行迭代矫正:(7a)选取数据集Z中细胞数量最多的一个批次数据作为参考数据集Z
ref
;(7b)在剩余的数据集Z
【专利技术属性】
技术研发人员:高琳,梁涛,许晗,胡宇轩,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。