基于连通图和生成式对抗网络的数据批次效应矫正方法技术

技术编号:33247093 阅读:57 留言:0更新日期:2022-04-27 18:01
本发明专利技术提供一种基于连通图和生成式对抗网络的数据批次效应矫正方法,包括如下步骤:1)数据预处理2)构建跨批次相似细胞连通图3)使用生成式对抗网络矫正批次效应。本发明专利技术属于生物信息分析技术领域,本发明专利技术提供的基于连通图和生成式对抗网络的数据批次效应矫正方法,为两批次、多批次、非重叠和小样本单细胞RNA

【技术实现步骤摘要】
基于连通图和生成式对抗网络的数据批次效应矫正方法


[0001]本专利技术属于生物信息学中的单细胞RNA

seq数据分析
,具体涉及一种基于连通图和生成式对抗网络的单细胞RNA

seq数据批次效应矫正方法。

技术介绍

[0002]单细胞RNA测序技术的成熟和测序成本的持续下降促使了人类细胞图谱项目等大型项目的建立,这些项目产生了成千上万至数百万个细胞的转录组数据,几乎不可避免地涉及跨时间点、测序技术或实验方案的多批次。随着单细胞研究爆炸性积累,对不同背景的实验数据进行综合分析对于尤为重要。然而,基因表达谱的批次效应不仅会掩盖真正的潜在生物学差异,而且可能导致虚假发现。因此,为避免产生误导性结论,必须在进一步分析之前对它们进行矫正。当前矫正方法主要可以分为两类,一种是选择其中某个批次作为锚,其他批次细胞向锚批次进行转换,优点是可以使不同批次的细胞相互转换从而可以研究在同一实验条件下的基因表达,缺点是无法充分结合每个批次的特点;另一种是构建一个低维嵌入空间,将所有批次的数据转换到低维空间中从而去除批次效应,优点是可以提取与生物有关的潜在特征,减少噪声影响,缺点是无法反映出基因表达量的差异。如何充分利用每个批次来源的有用方面,并在原始数据维度反映出基因表达量的差异仍是一个待解决的问题。

技术实现思路

[0003]为了克服以上技术问题,本专利技术提供了一种基于连通图和生成式对抗网络的数据批次效应矫正方法,将连通图和生成式对抗网络等方法结合起来以矫正单细胞RNA/>‑
seq数据的批次效应。
[0004]本专利技术的目的将通过下面的详细描述来进一步说明。
[0005]本专利技术提供一种基于连通图和生成式对抗网络的数据批次效应矫正方法,包括如下步骤
[0006]其特征在于,包括以下步骤:
[0007]S1.数据预处理:过滤低表达的细胞、过滤线粒体基因和低表达的基因,筛选2000个高变异基因(HVGs)作为研究对象,然后使用主成分分析方法提取256个主成分作为基因表达的低维表示;
[0008]S2.构建跨批次相似细胞连通图:在低维空间中,多次执行相互最近邻算法(MNN)以尽可能多的搜索不同批次之间的相互最近邻居对(MNNs),然后利用搜索到的MNNs来构建跨批次相似细胞连通图。
[0009]S3.使用生成式对抗网络(GAN)矫正批次效应:首先将在低维空间建立的跨批次相似细胞连通图映射到HVGs空间,然后从每个连通图中采样出不同批次的细胞组建相似细胞关系队列,以每个相似关系队列细胞合成的中间点为目标域,以队列中所有细胞为待去除批次效应的源域,使用生成式对抗网络训练一个从源域转换到目标域的网络,而后使用训
练完成后的生成器就可以去除批次效应。
[0010]优选地,所述步骤S1中对单细胞RNA

seq数据预处理采用的工具为Python编程语言中Scanpy包。主要包含以下步骤:
[0011]1)为防止文库大小或线粒体基因计数的比例太大带来干扰,过滤掉'ERCC','MT

','mt

'开头的基因;
[0012]2)剔除表达基因数量少于600个的细胞和在少于3个细胞中表达的基因;
[0013]3)选择2000个高变异基因作为研究对象并将数据标准化;
[0014]4)对数据做对数化变换并将数据转换到低维空间。优选地,所述步骤S2中构建跨批次相似细胞连通图的方法包括如下三种:以同时在3个批次中出现的A类型细胞来对构图方法进行解释:
[0015]1)闭环连接:如果批次1中的A1、批次2中的A2和批次3中的A3互为MNNs,则A1、A2和A3可以完美地形成一个连通图。
[0016]2)传递连接:如果批次1中的A1与批次2中的A2互为MNNs,批次2中的A2与批次3中的A3互为相互MNNs,则批次1中A1与批次3中A3为相似细胞,从而A1、A2和A3也可以构成一个连通图。
[0017]3)弱传递连接:首先在批次内执行k近邻算法,为每个细胞确定批次内的k个邻居,如果批次1中的A与批次2中的B互为MNNs,批次2中的B

与批次3中的C互为MNNs,且B和B

为批次内k近邻,则批次1中的A与批次3中的C为相似细胞,从而A、B/B

和C可以构建一个连通图。
[0018]优选地,所述步骤S3中使用生成式对抗网络矫正批次效应,具体步骤包括:
[0019]1)将从低维空间得到的连通图映射到HVGs空间,对每个连通图上每个批次的细胞进行随机采样进而得到一组来自不同批次的相似细胞队列。
[0020]2)通过三种模式从相似细胞队列中合成目标点。为构建中间批次设计三种模式Mean、Max和Min。对于Mean模式,选择相似细胞队列的每个基因表达的均值作为合成目标;对于Max模式,选择相似细胞队列的每个基因表达的最大值作为合成目标;对于Min模式,选择相似细胞队列中的每个基因表达的最小值作为合成目标。
[0021]3)以每个队列的合成点为目标域,以队列中细胞各自的基因表达量为源域,使用GAN训练一个从源域转换到目标域的网络,而后使用训练完成后的生成器矫正所有细胞的批次效应。
[0022]优选地,所述步骤S3中使用生成式对抗网络矫正批次效应,其中生成式对抗网络的参数细节为:
[0023]使用残差全连接层作为生成式对抗网络的生成器,每个全连接单元包含ReLU、BatchNormal和Mish激活。最后,使用ReLU激活函数确保输出符合基因表达分布。通过WGAN

GP优化对抗损失,判别器损失函数为:
[0024][0025]生成器损失函数为:
[0026][0027]另外添加了重建损失,以帮助生成式对抗网络更好更快地拟合多批次分布,重建损失为:
[0028][0029]与现有技术相比,本专利技术的有益效果包括:
[0030]1)本专利技术为两批次、多批次、非重叠和小样本单细胞RNA

seq数据集存在的批次效应提供了解决方案,它以来自不同批次的基因表达谱矩阵作为输入,并输出矫正后的基因表达谱,可以进行差异表达分析等下游任务。
[0031]2)本专利技术设计的三种模式—Mean、Max和Min,使得经过矫正后的基因表达可以结合每个批次的特征,并按照设定的模式调整每个批次的基因表达,这为研究不同批次细胞基因表达差异提供了新的见解。
附图说明
[0032]图1基于连通图和生成式对抗网络的数据批次效应矫正方法工作流程图
[0033]图2构建跨批次相似细胞连通图的三种方式示意图
[0034]图3生成式对抗网络的结构图
[0035]图4人类胰腺单细胞RNA

seq数据批次效应矫正前后UMAP可视化对比图
[0036]图1中标注的a,b,c字母为工作流本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于连通图和生成式对抗网络的数据批次效应矫正方法,其特征在于:包括如下步骤:S1.数据预处理:过滤低表达的细胞、过滤线粒体基因和低表达的基因,筛选2000个高变异基因(HVGs)作为研究对象,然后使用主成分分析方法提取256个主成分作为基因表达的低维表示;S2.构建跨批次相似细胞连通图:在低维空间中,多次执行相互最近邻算法(MNN)以尽可能多的搜索不同批次之间的相互最近邻居对(MNNs),然后利用搜索到的MNNs通过三种方式来构建跨批次相似细胞连通图。S3.使用生成式对抗网络(GAN)矫正批次效应:首先将在低维空间建立的跨批次相似细胞连通图映射到HVGs空间,然后从每个连通图中采样出不同批次的细胞组建相似细胞关系队列,以每个相似关系队列细胞合成的中间点为目标域,以队列中所有细胞为待去除批次效应的源域,使用生成式对抗网络训练一个从源域转换到目标域的网络,而后使用训练完成后的生成器矫正批次效应。2.根据权利要求1所述的基于连通图和生成式对抗网络的数据批次效应矫正方法,其特征在于:所述步骤S2中的构建跨批次相似细胞连通图,包括如下三种方法:对于重叠数据集和非重叠数据集构图方法是一致的,这里为方便起见,以同时在3个批次中出现的A类型细胞来对构图方法进行解释。1)闭环连接:如果批次1中的A1、批次2中的A2和批次3中的A3互为MNNs,则A1、A2和A3可以完美地形成一个连通图。2)传递连接:如果批次1中的A1与批次2中的A2互为MNNs,批次2中的A2与批次3中的A3互为MNNs,则批次1中A1与批次3中A3为相似细胞,从而A1、A2和A3也可以构成一个连通图。3)弱传递连接:为了使连通图尽可能多的包含不同批次的细胞,放宽可传递的条件.首先在批次内执行k近邻算法,为每个细胞确定了k个批次内的邻居,如果批次1中的A与批次2中的B互为MNNs,批次2中的B

与批次3中的C互为MNNs,且B和B<...

【专利技术属性】
技术研发人员:王珣张超岗宋弢王璐璐孙玉雪
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1