一种融合单细胞转录组的空间转录组生物组织亚结构解析方法技术

技术编号：35643362 阅读：12 留言：0更新日期：2022-11-19 16:35

本发明专利技术公开了一种融合单细胞转录组的空间转录组生物组织亚结构解析方法、系统及计算机可读存储介质，包括以下步骤：S1.获取公开的空间转录组数据并进行预处理；S2.利用STAGATE框架对预处理后的空间转录组数据进行编码，使用Louvain算法对编码结果进行聚类，得到空间转录组数据聚类结果；S3.获取公开的单细胞RNA测序数据并进行预处理，将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集；S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练，空间转录组数据同源的单细胞测序数据集进行分类，得到单细胞分类结果；S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。本发明专利技术提高了空间转录数据的聚类精度及单细胞数据分类准确度。数据的聚类精度及单细胞数据分类准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合单细胞转录组的空间转录组生物组织亚结构解析方法

[0001]本专利技术涉及生物信息
，更具体地，涉及一种融合单细胞转录组的空间转录组生物组织亚结构解析方法、系统及计算机可读存储介质。

技术介绍

[0002]随着生物信息学技术的快速发展，特别是转录组学和遗传学的研究改变了人们对癌症的认识。单细胞RNA测序(scRNA
‑
seq)技术的进展可以让研究人员更清楚地了解肿瘤的细胞组成内部结构，通过scRNA
‑
seq技术研究分析肿瘤相关细胞，并根据细胞的分子谱将细胞的类型划分成更精细的细胞亚群。在scRNA
‑
seq技术中，聚类分析技术极为关键。现有的基于基因表达方法主要是用pearson相关系数、spearman相关系数等指标进行分析。细胞亚群形成了复杂的生态系统，它们之间的相互作用会影响肿瘤进展和治疗结果，但关于肿瘤相关细胞亚群相互作用的方式还没研究透彻。scRNA
‑
seq的缺陷在于对组织样本进行处理的时候失去了组织的空间背景(即细胞环境)，而空间转录组测序可以同时获得细胞的空间位置信息和基因表达数据，更适合研究肿瘤基质中的细胞相互作用和空间基因表达。
[0003]目前空间转录组的技术主要有两种：基于NGS技术的方法和基于成像的方法(包括基于ISS的和基于ISH的)。
[0004]基于NGS技术的方法：2016年，空间转录组学(ST)技术被提出，以获得空间分辨的全转录组信息。2018年底，ST技术被进一步开发为10xV...

【技术保护点】

【技术特征摘要】
1.一种融合单细胞转录组的空间转录组生物组织亚结构解析方法，其特征在于，包括以下步骤：S1.获取公开的空间转录组数据并进行预处理；S2.利用STAGATE框架对预处理后的空间转录组数据进行编码，使用Louvain算法对编码结果进行聚类，得到空间转录组数据聚类结果；S3.获取公开的单细胞RNA测序数据并进行预处理，将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集；S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练，空间转录组数据同源的单细胞测序数据集进行分类，得到单细胞分类结果；S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。2.根据权利要求1所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法，其特征在于，步骤S1中对公开的空间转录组数据并进行预处理包括：数据的归一化、数据格式调整。3.根据权利要求1所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法，其特征在于，STAGATE框架包括：空间邻居网络SNN和图注意力自动编码器，其中，空间邻居网络用于，所述图注意力编码器用于学习具有空间信息和基因表达的低维潜在向量。4.根据权利要求3所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法，其特征在于，空间邻居网络SNN构建的具体过程为：根据预定义的半径r将空间信息转换为无向邻居网络，定义A为SNN的邻接矩阵，当且仅当节点i和节点j之间的欧几里德距离小于r时，A
ij
＝1，A
ij
表示邻接矩阵A的第i行，第j列元素；对于其他不同技术的空间转录组数据，则根据数据的具体分辨率选择r，以每个节点为圆心，以r为半径，平均包含6
‑
15个邻居节点；最后给每个节点添加自循环。5.根据权利要求3所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法，其特征在于，图注意力自动编码器包括：编码器、解码器和图注意层，图注意力层嵌在编码器与解码器中；其中，编码器将节点的归一化的基因表达作为输入，并通过聚合该节点邻居的信息来生成spot embedding(节点向量)，编码器中的图注意力层共L
‑
1层(k∈{1,2,...,L
‑
1})；x
i
是节点i的归一化表达式，L是编码器的层数，为编码器第k层输出的节点embedding，S
i
为节点s的邻居的集合，W
k
是可训练的权重矩阵；将节点的表达谱作为初始节点向量spot embedding，则有：其中是第k个图注意层输出中节点i和节点j之间的边权重；从节点i到其邻居节点j的边权重从节点i到其邻居节点j的边权重其中和是可训练的权重向量，Sigmoid表示sigmoid激活函数；为了使空间相似性权重具有可比性，通过sof...

【专利技术属性】
技术研发人员：刘佳贝，陈新，李浩宇，黄永慧，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人