一种融合单细胞转录组的空间转录组生物组织亚结构解析方法技术

技术编号:35643362 阅读:12 留言:0更新日期:2022-11-19 16:35
本发明专利技术公开了一种融合单细胞转录组的空间转录组生物组织亚结构解析方法、系统及计算机可读存储介质,包括以下步骤:S1.获取公开的空间转录组数据并进行预处理;S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。本发明专利技术提高了空间转录数据的聚类精度及单细胞数据分类准确度。数据的聚类精度及单细胞数据分类准确度。

【技术实现步骤摘要】
一种融合单细胞转录组的空间转录组生物组织亚结构解析方法


[0001]本专利技术涉及生物信息
,更具体地,涉及一种融合单细胞转录组的空间转录组生物组织亚结构解析方法、系统及计算机可读存储介质。

技术介绍

[0002]随着生物信息学技术的快速发展,特别是转录组学和遗传学的研究改变了人们对癌症的认识。单细胞RNA测序(scRNA

seq)技术的进展可以让研究人员更清楚地了解肿瘤的细胞组成内部结构,通过scRNA

seq技术研究分析肿瘤相关细胞,并根据细胞的分子谱将细胞的类型划分成更精细的细胞亚群。在scRNA

seq技术中,聚类分析技术极为关键。现有的基于基因表达方法主要是用pearson相关系数、spearman相关系数等指标进行分析。细胞亚群形成了复杂的生态系统,它们之间的相互作用会影响肿瘤进展和治疗结果,但关于肿瘤相关细胞亚群相互作用的方式还没研究透彻。scRNA

seq的缺陷在于对组织样本进行处理的时候失去了组织的空间背景(即细胞环境),而空间转录组测序可以同时获得细胞的空间位置信息和基因表达数据,更适合研究肿瘤基质中的细胞相互作用和空间基因表达。
[0003]目前空间转录组的技术主要有两种:基于NGS技术的方法和基于成像的方法(包括基于ISS的和基于ISH的)。
[0004]基于NGS技术的方法:2016年,空间转录组学(ST)技术被提出,以获得空间分辨的全转录组信息。2018年底,ST技术被进一步开发为10xVisium。10xVisium检测法在分辨率以及运行时间上都有改进。Slide

seq利用放置在载玻片上的随机barcode(一种用于区分的编码)珠子来捕获mRNA。在Slide

seq方法发表后不久,出现了另一种使用更小的barcode珠子的技术——高分辨率空间转录组技术(HDST)。DBiT

seq可在组织中使用确定性barcode进行空间组测序,该方法基于微流体的方法将barcode传递到组织玻片的表面,以实现10μm像素大小的分辨率。Stereo

seq使用随机barcodeDNA纳米球沉积在阵列模式中,以实现纳米级分辨率。Seq

scope已经实现了亚细胞分辨率的空间barcode,可以用来可视化核和细胞质转录。NanostringGeoMXDSP技术是将数据的捕获放在了一个个圆形的感兴趣区域(ROI)中,其将紫外线照射到ROI上,释放可光裂解的基因标签以进行测序定量。在所有基于NGS的方法中,均为收集空间barcodeRNA并进行测序,其中测序数据的基本单元是reads(测序短片段)。每个测序短片段(reads)的barcode用于绘制空间位置,而测序reads的其余部分被映射到基因组,以识别转录源,共同生成一个基因表达矩阵。
[0005]基于ISH(原位杂交)和基于ISS(原位测序)的方法:
[0006]上述两类方法均是以图像处理生成基因表达矩阵。基于ISH的方法是以ISH技术为基础,通过互补荧光探针杂交检测目标序列。smFISH利用多条短的寡核苷酸探针来靶向同一mRNA转录本的不同区域。虽然smFISH具有高灵敏度和亚细胞空间分辨率,但由于标准显微镜中光谱重叠的固有限制,它一次只能针对几个基因。seqFISH是一种多路smFISH方法,通过连续几轮杂交、成像和探针剥离,多次检测单个转录本,但既昂贵又耗时。为了弥补
seqFISH的大量耗时,MERFISH技术于2015年被发布。这种技术可以鉴定单个细胞中数千种RNA的拷贝数和空间定位。它利用组合标签、连续成像等技术来提高检测通量,并通过二进制barcode来抵消单分子标记和检测错误。
[0007]基于ISS的方法是直接读出组织内转录本的序列。BaristaSeq是一种基于缺口填充挂锁的方法,其读取长度增加到15个碱基。STARmap使用barcode挂锁探针,与靶标杂交,通过添加第二个引物,针对挂锁探针旁边的位点,避免了逆转录(RT)步骤。这种方法避免了cDNA转换的效率障碍,并通过增加第二个杂交步骤来降低噪音。前面所提到的方法都是基于对靶标的先验知识,而FISSEQ是一种非靶标的方法,即捕获所有种类的RNA,但非靶向扩增会导致光学拥挤和灵敏度降低。
[0008]为了提高空间数据的精度,在空间转录技术没有突破的情况下,整合多层面多维度的数据是一个可行的办法,两种或多种数据模态的计算集成可以更好地表征组织中的空间细胞类型组成和局部细胞状态,比如将scRNA

seq数据与用空间转录组数据整合用于聚类分析,可以得到更精准的分类结果。

技术实现思路

[0009]本专利技术提供了一种融合单细胞转录组的空间转录组生物组织亚结构解析方法、系统及计算机可读存储介质,提高了空间转录数据的聚类精度及单细胞数据分类效果。
[0010]本专利技术的首要目的是为解决上述技术问题,本专利技术的技术方案如下:
[0011]本专利技术第一方面提供了一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,包括以下步骤:
[0012]S1.获取公开的空间转录组数据并进行预处理;
[0013]S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;
[0014]S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;
[0015]S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;
[0016]S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。
[0017]进一步的,步骤S1中对公开的空间转录组数据并进行预处理包括:数据的归一化、数据格式调整。
[0018]进一步的,STAGATE框架包括:空间邻居网络SNN和图注意力自动编码器,其中,空间邻居网络用于,所述图注意力编码器用于学习具有空间信息和基因表达的低维潜在向量embedding。
[0019]进一步的,空间邻居网络SNN构建的具体过程为:
[0020]根据预定义的半径r将空间信息转换为无向邻居网络,定义A为SNN的邻接矩阵,当且仅当节点i和节点j之间的欧几里德距离小于r时,A
ij
=1,A
ij
表示邻接矩阵A的第i行,第j列元素;对于其他不同技术的空间转录组数据,则根据数据的具体分辨率选择r,以每个节点为圆心,以r为半径,平均包含6

15个邻居节点;最后给每个节点添加自循环。
[0021]进一步的,图注意力自动编码器包括:编码器、解码器和图注意层,图注意力层嵌
在编码器与解码器中;
[0022]其中,编码器将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,包括以下步骤:S1.获取公开的空间转录组数据并进行预处理;S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。2.根据权利要求1所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,步骤S1中对公开的空间转录组数据并进行预处理包括:数据的归一化、数据格式调整。3.根据权利要求1所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,STAGATE框架包括:空间邻居网络SNN和图注意力自动编码器,其中,空间邻居网络用于,所述图注意力编码器用于学习具有空间信息和基因表达的低维潜在向量。4.根据权利要求3所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,空间邻居网络SNN构建的具体过程为:根据预定义的半径r将空间信息转换为无向邻居网络,定义A为SNN的邻接矩阵,当且仅当节点i和节点j之间的欧几里德距离小于r时,A
ij
=1,A
ij
表示邻接矩阵A的第i行,第j列元素;对于其他不同技术的空间转录组数据,则根据数据的具体分辨率选择r,以每个节点为圆心,以r为半径,平均包含6

15个邻居节点;最后给每个节点添加自循环。5.根据权利要求3所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,图注意力自动编码器包括:编码器、解码器和图注意层,图注意力层嵌在编码器与解码器中;其中,编码器将节点的归一化的基因表达作为输入,并通过聚合该节点邻居的信息来生成spot embedding(节点向量),编码器中的图注意力层共L

1层(k∈{1,2,...,L

1});x
i
是节点i的归一化表达式,L是编码器的层数,为编码器第k层输出的节点embedding,S
i
为节点s的邻居的集合,W
k
是可训练的权重矩阵;将节点的表达谱作为初始节点向量spot embedding,则有:其中是第k个图注意层输出中节点i和节点j之间的边权重;从节点i到其邻居节点j的边权重从节点i到其邻居节点j的边权重其中和是可训练的权重向量,Sigmoid表示sigmoid激活函数;为了使空间相似性权重具有可比性,通过sof...

【专利技术属性】
技术研发人员:刘佳贝陈新李浩宇黄永慧
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1