空间转录组数据聚类方法及装置制造方法及图纸

技术编号:38998146 阅读:7 留言:0更新日期:2023-10-07 10:30
本发明专利技术提供一种空间转录组数据聚类方法及装置,所述方法包括:读取空间转录组数据集中的空间转录组数据;基于所述空间转录组数据确定每个采样点与临近采样点的皮尔逊相关系数以及序列丰度区分采样点种类;基于预先构建的序列流动模型,对组织下采样点进行表达谱修正,得到降噪后的基因表达矩阵;基于降噪后的基因表达矩阵对空间转录组数据进行聚类。本发明专利技术提供的空间转录组数据聚类方法及装置,通过确定每个采样点与临近采样点的皮尔逊相关系数,充分利用细胞的空间位置信息,对空间转录组数据进行降噪处理,修正基因表达量,提高了聚类分析结果的准确性。聚类分析结果的准确性。聚类分析结果的准确性。

【技术实现步骤摘要】
空间转录组数据聚类方法及装置


[0001]本专利技术涉及数据挖掘
,尤其涉及一种空间转录组数据聚类方法及装置。

技术介绍

[0002]空间转录组技术通过微阵列芯片捕获每个采样点的信使RNA转录本,理想情况下给定点的基因特异性唯一分子识别符(Unique Molecular Identifier,UMI)将代表该基因在该点的表达。但是实际情况中,每个采样点捕获的信息并不表示该基因在该点的表达,从附近采样点流出的信使RNA会导致UMI计数的大量污染,基因信息来自多个细胞的混合。因此,导致对空间转录组数据的聚类结果不准确。

技术实现思路

[0003]本专利技术提供一种空间转录组数据聚类方法及装置,用以解决现有技术中空间转录组数据的聚类结果不准确的技术问题。
[0004]第一方面,本专利技术提供一种空间转录组数据聚类方法,包括:
[0005]读取空间转录组数据集中的空间转录组数据;
[0006]基于所述空间转录组数据确定每个采样点与临近采样点的皮尔逊相关系数以及序列丰度区分采样点种类;
[0007]基于预先构建的序列流动模型,对组织下采样点进行表达谱修正,得到降噪后的基因表达矩阵;
[0008]基于降噪后的基因表达矩阵对空间转录组数据进行聚类。
[0009]在一些实施例中,基于所述空间转录组数据确定每个采样点与临近采样点的皮尔逊相关系数以及序列丰度区分采样点种类,包括:
[0010]计算每个采样点与相邻采样点的皮尔逊相关系数,以及每个采样点对应的平均皮尔逊相关系数,并计算每个采样点的序列丰度;
[0011]平均皮尔逊相关系数高于第一阈值且序列丰度高于第二阈值的采样点,记作组织下采样点,其它采样点记作空白采样点。
[0012]在一些实施例中,基于预先构建的序列流动模型,对组织下采样点进行表达谱修正,得到降噪后的基因表达矩阵,包括:
[0013]基于所述空白采样点确定序列流出采样点的相关参数;
[0014]基于序列流出采样点的相关参数,利用预先构建的序列流动模型对应的梯度下降算法估计组织下采样位点的序列渗出率以及受影响的邻域大小,并通过最大期望算法估计真实的表达水平,得到降噪后的基因表达矩阵。
[0015]在一些实施例中,基于降噪后的基因表达矩阵对空间转录组数据进行聚类,包括:
[0016]基于降噪后的基因表达矩阵的空间位置生成邻接矩阵;
[0017]基于所述邻接矩阵对降噪后的基因表达矩阵进行扩增,得到基因表达增强矩阵;
[0018]基于所述邻接矩阵和所述基因表达增强矩阵对空间转录组数据进行聚类。
[0019]在一些实施例中,基于所述邻接矩阵对降噪后的基因表达矩阵进行扩增,得到基因表达增强矩阵,包括:
[0020]基于所述邻接矩阵和降噪后的基因表达矩阵,确定邻域平均表达矩阵;
[0021]将所述降噪后的基因表达矩阵和所述邻域平均表达矩阵进行拼接扩增,得到基因表达增强矩阵。
[0022]在一些实施例中,基于所述邻接矩阵和所述基因表达增强矩阵对空间转录组数据进行聚类,包括:
[0023]将所述邻接矩阵和所述基因表达增强矩阵输入至图卷积神经网络模型,得到图卷积神经网络模型输出的节点嵌入矩阵;
[0024]基于所述节点嵌入矩阵对空间转录组数据进行聚类。
[0025]在一些实施例中,基于所述节点嵌入矩阵对空间转录组数据进行聚类,包括:
[0026]通过主成分分析将节点嵌入矩阵映射到低维空间,得到降维后的数据;
[0027]利用聚类算法对降维后的数据进行聚类。
[0028]第二方面,本专利技术还提供一种空间转录组数据聚类装置,包括:
[0029]读取模块,用于读取空间转录组数据集中的空间转录组数据;
[0030]采样点区分模块,用于基于所述空间转录组数据确定每个采样点与临近采样点的皮尔逊相关系数以及序列丰度区分采样点种类;
[0031]修正模块,用于基于预先构建的序列流动模型,对组织下采样点进行表达谱修正,得到降噪后的基因表达矩阵;
[0032]聚类模块,用于基于降噪后的基因表达矩阵对空间转录组数据进行聚类。
[0033]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述空间转录组数据聚类方法。
[0034]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述空间转录组数据聚类方法。
[0035]第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述空间转录组数据聚类方法。
[0036]本专利技术提供的空间转录组数据聚类方法及装置,通过确定每个采样点与临近采样点的皮尔逊相关系数,充分利用细胞的空间位置信息,对空间转录组数据进行降噪处理,去除被污染的基因表达量,提高了聚类分析结果的准确性。
附图说明
[0037]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是本专利技术提供的空间转录组数据聚类方法的流程示意图;
[0039]图2是本专利技术提供的空间转录组数据聚类原理示意图;
[0040]图3是本专利技术提供的相关矩阵示意图之一;
[0041]图4是本专利技术提供的相关矩阵示意图之二;
[0042]图5是本专利技术提供的相关矩阵示意图之三;
[0043]图6是本专利技术提供的相关矩阵示意图之四;
[0044]图7是本专利技术提供的相关矩阵示意图之五;
[0045]图8是本专利技术提供的相关矩阵示意图之六;
[0046]图9是本专利技术提供的相关矩阵示意图之七;
[0047]图10是本专利技术提供的空间转录组数据聚类装置的结构示意图;
[0048]图11是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0049]生物学分析的一个初始问题是细胞聚类,当前研究主要依赖于单细胞测序技术提供的基因表达信息进行细胞聚类。空间转录学技术的兴起,不仅提供了组织的基因表达谱,同时提供了空间结构,但是现有的细胞聚类算法中没能充分的利用细胞的空间位置信息,或是仅依赖于处于相邻位置的细胞更趋向于同一类型。
[0050]空间转录组技术通过微阵列芯片捕获每个采样点的信使RNA转录本,理想情况下给定点的基因特异性UMI将代表该基因在该点的表达。但是实际情况中,每个采样点捕获的信息并不表示该基因在该点的表达,从附近采样点流出的信使RNA会导致UMI计数的大量污染,基因信息来自多个细胞的混合。
[0051]总的来说,对空本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种空间转录组数据聚类方法,其特征在于,包括:读取空间转录组数据集中的空间转录组数据;基于所述空间转录组数据确定每个采样点与临近采样点的皮尔逊相关系数以及序列丰度区分采样点种类;基于预先构建的序列流动模型,对组织下采样点进行表达谱修正,得到降噪后的基因表达矩阵;基于降噪后的基因表达矩阵对空间转录组数据进行聚类。2.根据权利要求1所述的空间转录组数据聚类方法,其特征在于,基于所述空间转录组数据确定每个采样点与临近采样点的皮尔逊相关系数以及序列丰度区分采样点种类,包括:计算每个采样点与相邻采样点的皮尔逊相关系数,以及每个采样点对应的平均皮尔逊相关系数,并计算每个采样点的序列丰度;平均皮尔逊相关系数高于第一阈值且序列丰度高于第二阈值的采样点,记作组织下采样点,其它采样点记作空白采样点。3.根据权利要求2所述的空间转录组数据聚类方法,其特征在于,基于预先构建的序列流动模型,对组织下采样点进行表达谱修正,得到降噪后的基因表达矩阵,包括:基于所述空白采样点确定序列流出采样点的相关参数;基于序列流出采样点的相关参数,利用预先构建的序列流动模型对应的梯度下降算法估计组织下采样位点的序列渗出率以及受影响的邻域大小,并通过最大期望算法估计真实的表达水平,得到降噪后的基因表达矩阵。4.根据权利要求1所述的空间转录组数据聚类方法,其特征在于,基于降噪后的基因表达矩阵对空间转录组数据进行聚类,包括:基于降噪后的基因表达矩阵的空间位置生成邻接矩阵;基于所述邻接矩阵对降噪后的基因表达矩阵进行扩增,得到基因表达增强矩阵;基于所述邻接矩阵和所述基因表达增强矩阵对空间转录组数据进行聚类。5.根据权利要求4所述的空间转录组数据聚类方法,其特征在于,基于所...

【专利技术属性】
技术研发人员:郭洪哲宫月侯睿杨家亮田埂
申请(专利权)人:北京元码医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1