一种融合影像基因数据的空间转录组spot区域聚类方法技术

技术编号:37989478 阅读:8 留言:0更新日期:2023-06-30 10:04
本发明专利技术公开了一种融合影像基因数据的空间转录组spot区域聚类方法,对空间转录组中每个spot的基因表达进行预处理,获取基因表达矩阵;还原预处理后的每个spot所在区域的图像;使用对比学习网络提取图像特征;以各spot之间不同关系进行排序,构件多模态图结构;将多模态图结构的邻接矩阵及节点特征矩阵输入图对比学习网络模型,然后将输出输入多模态融合网络,再将输出输入全连接神经网络,得到节点特征表示;然后采用降维、聚类算法处理后,识别空间转录组spot区域类型。基于图对比学习的融合影像基因数据的spot区域聚类方法,将深度学习技术与空间转录组领域的知识相结合,从而实现降噪、高效聚类等目的。高效聚类等目的。高效聚类等目的。

【技术实现步骤摘要】
一种融合影像基因数据的空间转录组spot区域聚类方法


[0001]本专利技术涉及生物信息学领域,具体是涉及一种融合影像基因数据的空间转录组spot区域聚类方法。

技术介绍

[0002]空间转录组学能够同时获得捕获区域中被标记的点(spot)的空间位置信息和基因表达数据,且不需要制备细胞悬液,进一步推进了对组织原位细胞真实基因表达的研究,为组织细胞功能、微环境互作、发育过程谱系追踪、疾病病理学等多个领域提供了重要的研究手段。
[0003]目前对此类数据的分析借鉴Bulk RNA

seq 和scRNA

seq分析策略,大都基于概率统计模型,但是依赖特定先验知识,难以处理高维、稀疏的空间位置信息和基因表达数据,并且未能充分利用空间转录组学所具有的多模态特征。其中,对spot区域聚类分析是众多数据分析和下游研究的必须步骤,现有spot区域聚类方法未充分利用空间转录组学多模态特征,依赖于特定先验知识,无法满足高效处理spot区域聚类的问题。

技术实现思路

[0004]专利技术目的:针对以上缺点,本专利技术提供一种实现降噪、高效聚类的融合影像基因数据的空间转录组spot区域聚类方法。
[0005]技术方案:为解决上述问题,本专利技术采用一种融合影像基因数据的空间转录组spot区域聚类方法,包括以下步骤:(1)对空间转录组中每个spot的基因表达进行预处理,并获取每个spot的基因表达矩阵;(2)还原预处理后的每个spot所在区域的图像;(3)使用对比学习网络提取图像特征,得到图像特征矩阵;(4)以各spot之间不同关系进行排序,构建多模态图结构;采用基因表达矩阵或者步骤(3)提取的图像特征矩阵作为多模态图结构的节点特征矩阵;(5)将多模态图结构的邻接矩阵及节点特征矩阵输入图对比学习网络模型,得到具有空间信息的节点特征表示;(6)将具有空间信息的节点特征表示输入多模态融合网络,得到唯一的节点特征表示;(7)将步骤(6)得到的节点特征表示输入全连接神经网络MLP,得到融合影像基因数据的节点特征表示;(8)将步骤(7)得到的融合影像基因数据的节点特征表示采用降维、聚类算法处理后,识别空间转录组spot区域类型。
[0006]进一步的,所述步骤(2)具体步骤为:(2.1)以每个spot像素坐标上下左右各若干个像素范围内的像素点的颜色值,将
其还原为图像,得到矩形图像;(2.2)以矩形图像长宽数值中较小的数值为圆形图像的直径,生成长宽均为圆直径并且像素点颜色值均为白色的图像;计算矩形图像中每一个像素点与圆心的欧几里得距离,圆心为矩形图像中心点,若距离小于圆形图像的半径,则将该像素点颜色值存储在新图像对应位置,得到圆形图像;(2.3)计算圆形图像之间的结构相似性:,其中, 是图像和图像之间的亮度比较,是图像和图像之间的对比度比较,是图像和图像之间的结构比较,、、均为调节参数。
[0007]进一步的,所述步骤(3)中构建并训练对比学习网络模型,使用训练后的对比学习网络模型提取图像特征,构建并训练对比学习网络模型的具体步骤为:(3.1)采集N个样本图像,对每张图像进行两次随机数据增强,得到数据增强后的图像;产生2N个样本对;N为大于1的自然数;(3.2)将数据增强后的图像输入编码器,并将输出输入Projection Head得到特征表示;(3.3)根据步骤(3.2)得到的特征表示,计算每一张图像与其他图像的余弦相似度:,其中,表示数据增强后的图像的特征表示,表示数据增强后的图像的特征表示,表示求向量的长度;计算每组图像之间相似的概率:,其中,表示指示函数,当且仅当时,其值为1,为超参数;计算所有样本对的平均损失:,(3.4)根据平均损失训练对比学习网络模型。
[0008]进一步的,所述步骤(4)的具体内容为:多模态图结构包括第一模态图结构、第二模态图结构和第三模态图结构;所述第
一模态图结构根据点与其他点,之间的欧几里得距离大小进行排序,筛选前个点作为的邻接节点,构建邻接矩阵;节点特征为基因表达矩阵;为大于1的自然数;所述第二模态图结构根据点与其他点,之间的余弦相似度大小进行排序,筛选前个点作为的邻接节点,构建邻接矩阵;节点特征为基因表达矩阵;为大于1的自然数;所述第三模态图结构根据根据点与其他点,的结构相似性大小进行排序,筛选前个点作为的邻接节点,构建邻接矩阵;节点特征为步骤(3)提取的图像特征矩阵;为大于1的自然数。
[0009]进一步的,所述步骤(5)中,将每一个模态图结构的节点特征表示矩阵以及邻接矩阵输入图注意力网络,并在第层输出节点特征表示矩阵:,其中,是可训练的权重矩阵,是第个spot的邻接节点集合,是第个图注意力层中第个spot和第个spot之间边的权重,表示非线性激活函数。
[0010]进一步的,所述步骤(5)中,对于每一个模态图结构,保持邻接矩阵不变,采用随机扰动节点特征策略,生成新的图,将原始图和新的图的节点特征表示矩阵以及邻接矩阵分别输入图注意力网络,图注意力网络采用共享参数策略;图对比学习损失函数为:,其中,为原始图的节点特征表示矩阵;为原始图的邻接矩阵;为图的节点特征表示矩阵;为图的邻接矩阵;为原始图经图注意力网络的输出矩阵,为图经图注意力网络的输出矩阵,和为使用readout函数获得的原始图和图的全局特征表示;为正样本对,为负样本对;用以区分不同样本之间的差异;和分别表示图和图所对应的标签。
[0011]进一步的,所述第个图注意力层中节点和节点之间边的权重计算公式为:
,其中,表示拼接函数,拼接两组经过变换后的特征矩阵。
[0012]使用softmax函数对权重进行规范化,,得到的权重将在之后在网络中更新嵌入向量,不同模态图注意力网络不共享参数,输出集成了邻接信息的spot嵌入向量。
[0013]进一步的,将全连接神经网络与空间转录组spot原始特征计算损失,同时将对比学习损失引入损失函数进行优化,整个模型的损失函数为:,其中,为融合影像基因数据的节点特征表示,表示均方差损失函数。
[0014]有益效果:本专利技术相对于现有技术,其显著优点是基于图对比学习的融合影像基因数据的spot区域聚类方法,将深度学习技术与空间转录组领域的知识相结合,从而实现降噪、高效聚类等目的。
附图说明
[0015]图1为本专利技术聚类方法的流程示意图。
[0016]图2为网络结构示意图。
具体实施方式
[0017]如图1所示,本实施例中的一种融合影像基因数据的空间转录组spot区域聚类方法,包括如下步骤:步骤1:高通量空间转录组测序技术生成的数据具有高维、稀疏和多模态等特征,部分spot未检出基因表达信息,使用scanpy包读取空间转录组数据并筛除无效spot,数据存储格式为AnnData。对spot中基因表达数据进行对数变换与归一化,并筛选高可变基因。
[0018]步骤2:根据空间转录组的spot坐标,在对应病理图像上分别裁剪矩形、圆形图像,具体包括:步骤2.1:读取每一个spo本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合影像基因数据的空间转录组spot区域聚类方法,其特征在于,包括以下步骤:(1)对空间转录组中每个spot的基因表达进行预处理,并获取每个spot的基因表达矩阵;(2)还原预处理后的每个spot所在区域的图像;(3)使用对比学习网络提取图像特征,得到图像特征矩阵;(4)以各spot之间不同关系进行排序,构建多模态图结构;采用基因表达矩阵或者步骤(3)提取的图像特征矩阵作为多模态图结构的节点特征矩阵;(5)将多模态图结构的邻接矩阵及节点特征矩阵输入图对比学习网络模型,得到具有空间信息的节点特征表示;(6)将具有空间信息的节点特征表示输入多模态融合网络,得到唯一的节点特征表示;(7)将步骤(6)得到的节点特征表示输入全连接神经网络MLP,得到融合影像基因数据的节点特征表示;(8)将步骤(7)得到的融合影像基因数据的节点特征表示采用降维、聚类算法处理后,识别空间转录组spot区域类型。2.根据权利要求1所述的空间转录组spot区域聚类方法,其特征在于,所述步骤(2)具体步骤为:(2.1)以每个spot像素坐标上下左右各若干个像素范围内的像素点的颜色值,将其还原为图像,得到矩形图像;(2.2)以矩形图像长宽数值中较小的数值为圆形图像的直径,生成长宽均为圆直径并且像素点颜色值均为白色的图像;计算矩形图像中每一个像素点与圆心的欧几里得距离,圆心为矩形图像中心点,若距离小于圆形图像的半径,则将该像素点颜色值存储在新图像对应位置,得到圆形图像;(2.3)计算圆形图像之间的结构相似性:,其中, 是图像和图像之间的亮度比较,是图像和图像之间的对比度比较,是图像和图像之间的结构比较,、、均为调节参数。3.根据权利要求2所述的空间转录组spot区域聚类方法,其特征在于,所述步骤(3)中构建并训练对比学习网络模型,使用训练后的对比学习网络模型提取图像特征,构建并训练对比学习网络模型的具体步骤为:(3.1)采集N个样本图像,对每张图像进行两次随机数据增强,得到数据增强后的图像;产生2N个样本对;N为大于1的自然数;(3.2)将数据增强后的图像输入编码器,并将输出输入Projection Head得到特征表示;(3.3)根据步骤(3.2)得到的特征表示,计算每一张图像与其他图像的余弦相似度:
,其中,表示数据增强后的图像的特征表示,表示数据增强后的图像的特征表示,表示求向量的长度;计算每组图像之间相似的概率:,其中,表示指示函数,当且仅当时,其值为1,为超参数;计算所有样本对的平均损失:,(3.4)根据平均损失训练对比学习网络模型。4.根据权利要求3所述的空间转录组spot区域聚类方法,其特征在于,所述步骤(4)的具体内容为:多模态图结构包括第一...

【专利技术属性】
技术研发人员:邵伟石航张道强
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1