空间转录数据组织区域分析方法、系统、设备及存储介质技术方案

技术编号:38633517 阅读:14 留言:0更新日期:2023-08-31 18:31
本发明专利技术属于空间转录组测序技术领域,公开了一种空间转录数据组织区域分析方法、系统、设备及存储介质,包括获取空间转录组数据集以及组织图像,以及将组织图像进行图像区域分割得到区域掩码图像;根据空间转录组数据集、组织图像以及区域掩码图像,构建以空间转录组数据集中的spot为节点带权重的无向完全图;将无向完全图和空间转录组数据集中的基因表达矩阵输入预设的图卷积神经网络中,得到特征融合矩阵;以及将特征融合矩阵进行邻居特征聚合,得到空间转录组数据集中各spot的嵌入表示;根据各spot的嵌入表示进行各spot的聚合得到聚合结果。解决了空间转录组数据集信息利用不充分的问题以及提取图像特征不准确的问题,实现更高精度的组织区域分析。更高精度的组织区域分析。更高精度的组织区域分析。

【技术实现步骤摘要】
空间转录数据组织区域分析方法、系统、设备及存储介质


[0001]本专利技术属于空间转录组测序
,涉及一种空间转录数据组织区域分析方法、系统、设备及存储介质。

技术介绍

[0002]传统的单细胞测序虽可以无偏定义细胞的类型和状态,但是却无法从组织中的生物分子和细胞中获取空间分布的信息,也无法深入了解不同细胞类型和细胞状态是如何在组织中分布,对理解单细胞相关功能和性状表现带来了巨大的挑战。伴随着高通量测序技术和测序精度的进步和发展,目前已经出现了可以捕捉组织空间位置特性的空间转录组测序技术。利用空间转录组测序技术可以从空间上探索组织分布,从而帮助研究人员更好地研究疾病病理等组织生理学过程,但是研究者感兴趣的组织区域和单细胞在图像中占比很小,区域识别和检测难度较大,如果直接完全地依赖人工标注成本高。如何结合图像信息和测序数据进行深度整合分析,进而自动地完成组织区域分割,还缺乏深入研究。
[0003]在空间转录组技术学技术出现之前,单细胞RNA测序(scRNA

seq)是主流的技术。对于组织区域分割这个任务,常用的方法是以K

means和Louvain为代表的传统聚类方法。这些方法直接将基因表达数据作为输入,从而将组织分割为不同的区域。尽管单细胞RNA测序已经使描述细胞类型和状态成为可能,并以前所未有的高分辨率研究细胞机制,但单细胞RNA测序无法获得细胞空间位置信息。由于算法本身以及单细胞RNA测序无法获得细胞空间信息的限制,上述算法在聚类过程中没有考虑细胞空间信息以及组织学的限制,从而导致得到的聚类可能不是连续的。伴随着高通量测序技术和测序精度的进步和发展,出现了可以捕捉组织空间位置特性的空间转录组测序技术。与单细胞RNA测序技术相比,空间转录组测序数据中增加了空间位置信息这一新的维度。如何将空间位置信息与基因表达数据有效地结合,是研究者需要重点解决的问题。
[0004]有学者首先探索了基于随机过程的方法。作者开发了一种利用隐马尔可夫随机场(HMRF)的方法来模拟基因表达的空间依赖性。HMRF表示由马尔可夫随机场产生的随机过程,其状态序列不能被直接观测到,但是可以通过观察数据进行参数估计。空间转录组数据中每个细胞所属的聚类信息是隐藏的,但是可以通过基因表达数据和空间信息估计出来。为了将HMRF应用于空间转录组数据,Zhu等人将细胞的空间结构表示为网格上的一组节点,相邻节点之间相互连接。由马尔可夫特性可知,细胞的空间依赖性只取决于相邻节点,因此基因表达的联合分布函数可以分解为多个较小规模的分布函数的乘积,这些小规模分布可以由一个全连接的子图来定义。此后,有研究者在此基础上引入贝叶斯方法应用于空间转录组区域分割。为了发现基因表达的空间依赖性,作者利用空间先验知识来建模基因表达矩阵的低维表示。空间先验知识可以是利用K

means等方法得到的初步区域分割信息。具体来讲,对于一个给定的细胞,其基因表达的低维表示遵循多变量正态分布,利用空间先验知识鼓励相邻的细胞属于同一聚类。上述的基于随机过程的方法虽然充分考虑了基因表达的空间依赖性,但是都没有利用到组织图像的信息,因此它们可能仍然无法充分捕捉到组织
的结构信息。
[0005]2010年后,随着计算能力的提高和数据量的急速增加,深度学习在各个领域取得了许多突破性的成果,自然也有许多研究者将深度学习引入到空间转录组区域分割任务中。SpaCell首次将组织图像信息和基因表达顺序结合起来。它根据空间位置信息,将组织学图像分割为299*299像素的小图像,然后再利用在ImageNet数据集预训练好ResNet50模型提取图像的特征。然后SpaCell训练了两个自编码器,分别处理图像信息和基因表达信息,将两个自编码器的结果相拼接便得到了最终的增强特征矩阵,最后再利用K

means等传统聚类算法进行聚类。虽然上述方法充分利用了组织图像的特征信息,但是在自编码器中并没有利用到空间位置信息,因此也就没有考虑到基因表达的空间依赖性。另外,使用的ImageNet数据集并不是专门的生物学组织图像的数据集,因此训练得到的CNN网络可能无法正确地捕捉到生物组织图像的结构信息。
[0006]stLearn在聚类前使用相邻细胞的基因表达信息以及组织学图像特征来得到增强特征矩阵。stLearn将中心点或者细胞的每个基因的表达值归一化为其邻近节点的加权平均值。与SpaCell类似,stlearn将组织学图像分割为固定大小的小图像,再利用深度学习模型提取小图像的特征向量,然后通过特征向量得到细胞之间的权重矩阵,再利用权值将中心点或者细胞的每个基因的表达值归一化为其邻近节点的加权平均值,最后利用K

means等传统算法得到聚类结果。stLearn与SpaCell相比,利用了细胞的空间信息,考虑了细胞基因表达的空间依赖性,因此具有更好的效果,但是与SpaCell相同,其仍然是使用ImageNet预训练的模型来提取图像的特征,特征提取效果可能会不理想。Hu等人则从组织学图像像素强度的统计学特征出发,提出了SpaGCN。SpaGCN首先构建了一个带权无向连接图,其中每个节点代表了一个中心点(spot)。权重是通过两个中心点的距离来衡量的,距离越远,权值越小。距离的计算综合考虑了中心点位置和组织学特征。组织学特征由中心点附近50*50像素大小区域的RGB通道的方差和均值构建的。然后SpaGCN将构建的带权无向连接图和基因表达数据作为GCN的输入。SpaGCN中的GCN层与聚类层相连,将中心点迭代聚类到不同的区域,在这个迭代聚类过程中,GCN层的滤波器参数也被更新。与stLearn使用一个任意选择的半径来确定邻居不同,SpaGCN在GCN层的聚合过程中自动给每个节点赋予权重,这样使得SpaGCN使用起来更加地便捷。同时,SpaGCN提取组织学图像的统计学信息可以更好的减少组织染色所带来的图像噪声对下游任务的影响。但是SpaGCN只利用组织学图像的统计学信息,而没有利用组织图像的一些宏观区域边界信息。近年来,随着多重成像技术的发展,也有研究人员提出了针对多重成像空间转录数据集的分析方法。UTAG利用固定欧拉距离阈值的方法构建细胞连接图,再利用消息传递机制将基因表达信息和细胞的空间位置信息结合,最后再利用K

means等算法进行聚类分析,从而得到组织分割区域。无监督的特性和计算量小是该方法的突出优势,但是UTAG并没有利用多重成像图片的信息,同时固定的距离阈值可能会影响细胞连接图的构建。
[0007]总体来说,目前的空间转录数据组织区域分析方法存在着未完全利用空间转录组数据集中三种类型的信息、未利用图像宏观区域边界信息、图像特征提取不精确以及计算复杂度高(主要是基于预训练模型的分析方法)等问题。因此有必要设计一种高效的能够综合利用单细胞图像,测序数据的功能区域划分方案,推动单细胞空间转录组数据分析向着精准化数字化方向发展。

技术实现思路

[0008]本专利技术的目的在于克服上述现有技术中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种空间转录数据组织区域分析方法,其特征在于,包括:获取空间转录组数据集以及组织图像,以及将组织图像进行图像区域分割得到区域掩码图像;根据空间转录组数据集、组织图像以及区域掩码图像,构建以空间转录组数据集中的spot为节点带权重的无向完全图;其中,无向完全图中节点之间的权重根据spot之间的距离计算得到;将无向完全图和空间转录组数据集中的基因表达矩阵输入预设的图卷积神经网络中,得到特征融合矩阵;以及将特征融合矩阵进行邻居特征聚合,得到空间转录组数据集中各spot的嵌入表示;根据各spot的嵌入表示进行各spot的聚合得到聚合结果。2.根据权利要求1所述的空间转录数据组织区域分析方法,其特征在于,所述根据空间转录组数据集、组织图像以及区域掩码图像,构建以空间转录组数据集中的spot为节点带权重的无向完全图前,还包括:将空间转录组数据集进行如下预处理:剔除在少于3个spot中有表达的基因,并通过下式对基因表达矩阵中的各基因表达值做归一化:其中,u
ij
为第i个spot中基因j的表达量,i=1......N,j=1......D,N为spot的数量,D为特异性分子标签的数量。3.根据权利要求1所述的空间转录数据组织区域分析方法,其特征在于,所述无向完全图中节点之间的权重通过如下方式得到:对于每个spot,以该spot为中心,裁取β
×
β像素值大小的组织图像,得到组织图像区域B
i
,并在相同位置的区域掩码图像中裁取β
×
β像素值大小的区域掩码图像区域M
i
,设定spot像素点所属的区域为k,根据区域掩码图像区域M
i
,通过下式优化组织图像区域B
i
,得到组织区域图像区域图像其中,M
i
==k表示M
i
中的某一位置的值如果等于k,则对应位置为1,否则为0,该操作得到的矩阵形状与M
i
相同;表示对应位置元素相乘;对于组织区域图像计算组织区域图像中RGB三个通道的像素值均值(r
i
,g
i
,b
i
),并通过下式得到第i个spot的添加值z
i
:其中,V
r
,V
g
,V
b
分别为所有spot在RGB三个通道均值的方差;通过下式对第i个spot的添加值z
i
进行尺度缩放,得到第i个spot的尺度缩放添加值
其中,μ
z
是所有spot的添加值的均值;σ
x
,σ
y
和σ
z
分别为所有spot的x,y和z的标准差;s为预设参数,表征添加值z在计算spot距离时的重要性;通过下式得到两个spot之间的距离:通过下式计算无向完全图中节点之间的权重:其中,w(i,j)为节点i和节点j之间的权重,l为超参数,用于控制相似度随着距离增大的衰减程度。4.根据权利要求1所述的空间转录数据组织区域分析...

【专利技术属性】
技术研发人员:付来义丁益东王莹孙贺全彭勤科
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1