一种用于空间转录组数据的空间可变基因识别方法及系统技术方案

技术编号:38225812 阅读:8 留言:0更新日期:2023-07-25 17:56
本发明专利技术涉及一种用于空间转录组学数据的空间可变基因识别方法,该方法包括:通过半池化方法对原始数据进行数据转换和特征提取;对半池化处理得到的输出数据进行稳定性检验;对稳定性检验结果进行组合测试,从而识别空间可变基因。与现有技术相比,本发明专利技术具有识别准确度高,计算速度快等优点。计算速度快等优点。计算速度快等优点。

【技术实现步骤摘要】
一种用于空间转录组数据的空间可变基因识别方法及系统


[0001]本专利技术涉及生物信息
,尤其是涉及一种用于空间转录组数据的空间可变基因识别方法及系统。

技术介绍

[0002]空间转录组学技术的快速发展推动了组织结构的重建、发育和疾病等方面的研究,大规模的空间转录组学研究也愈发流行。空间转录组学分析方法中一个十分重要且独有的问题是识别空间可变基因。空间可变基因的具体含义是指在组织的空间分布中基因表达具有一定的空间模式的基因。从数据上来看,空间可变基因的表达计数与空间位置存在特定关系。
[0003]传统的空间统计学模型面对数量大、结构复杂、维度高且稀疏的空间转录组学数据往往失效,因此需要开发适应空间转录组数据特点的空间可变基因识别方法。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供了一种识别准确度高,计算速度快的用于空间转录组数据的空间可变基因识别方法及系统。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]根据本专利技术的第一方面,提供了一种用于空间转录组学数据的空间可变基因识别方法,该方法包括以下步骤:
[0007]步骤S1、对每个基因的原始基因表达数据进行半池化处理;
[0008]步骤S2、对半池化处理后的输出数据进行稳定性检验;
[0009]步骤S3、对于多个稳定性检验结果进行组合测试;
[0010]步骤S4、根据组合测试结果判断是否为空间可变基因。
[0011]优选地,所述步骤S1中的半池化处理,具体为:按照给定的K组半池化参数分别对空间转录组学数据进行平均值计算,将得到的输出数据按照空间位置重新排列为一维序列;其中,半池化参数包括方向参数和步长参数。
[0012]优选地,所述半池化处理包括四组不同的半池化参数,分别为:
[0013]1)方向:行方向,步长:n
row

[0014]2)方向:行方向,步长:
[0015]3)方向:列方向,步长:n
col

[0016]4)方向:列方向,步长:
[0017]其中,n
col
为空间转录组数据包含的列数,n
row
为空间转录组数据包含的行数,[
·
]表示取整数。
[0018]优选地,所述步骤S2中的稳定性检验为Box

Pierce检验,用于对于不同半池化参数处理的输出数据分别进行稳定性检验。
[0019]优选地,所述Box

Pierce检验中的参数设置包括:最大延迟阶参数m=[ln(T)],其中,T为半池化处理后的输出数据长度,[
·
]表示取整数。
[0020]优选地,所述步骤S3中的组合测试采用Stouffer组合方法,具体计算方式为:
[0021][0022]其中,Φ
‑1(
·
)是标准正态分布的累积分布函数的反函数,K为半池化参数的组别数,N(0,1)为标准正态分布。
[0023]优选地,所述步骤S4还包括对组合测试结果进行holm方法校正。
[0024]根据本专利技术的第二方面,提供了一种基于空间转录组学数据的空间可变基因识别系统,该系统包括:
[0025]半池化处理模块,用于对每个基因的原始基因表达数据进行半池化处理;
[0026]稳定性检验模块,用于对半池化处理后的输出数据进行稳定性检验;
[0027]组合测试模块,用于对于多个稳定性检验结果进行组合测试;
[0028]空间可变基因判断模块,用于根据组合测试结果判断是否为空间可变基因。
[0029]根据本专利技术的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现任一项所述的方法。
[0030]根据本专利技术的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。
[0031]与现有技术相比,本专利技术具有以下优点:
[0032]1)本专利技术通过半池化方法对原始数据进行数据转换和特征提取,对半池化处理得到的输出数据进行稳定性检验,对稳定性检验结果进行组合测试,从而识别空间可变基因,具有识别准确度高,计算速度快的优点;
[0033]2)本专利技术采用包含有方向参数和步长参数的半池化方法进行数据转换和特征提取,用于数量大、结构复杂、维度高且稀疏的大规模空间转录组数据;
[0034]3)采用Box

Pierce检验对半池化处理后的输出数据进行稳定性检验,准确性高;
[0035]4)采用Stouffer组合方法对多个稳定性检验结果进行组合测试,提高了测试结果的准确性;
[0036]5)对组合测试的P值使用holm方法进行校正,可有效控制假阳性率,提高了识别的准确性。
附图说明
[0037]图1为本专利技术的空间可变基因识别方法流程图。
[0038]图2为本专利技术的半池化处理步骤的具体实施示意图。
[0039]图3为本专利技术实施例的部分结果示意图,图中展示的是在实施例中识别出排名前20的空间可变基因。
具体实施方式
[0040]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。
[0041]实施例
[0042]本专利技术涉及一种针对大规模空间转录组数据的空间可变基因识别方法,目的是在大规模空间转录组数据中识别出空间可变基因,该方法包括以下步骤:
[0043]步骤S1、对每个基因的原始基因表达数据进行半池化处理;
[0044]步骤S2、对半池化处理后的输出数据进行稳定性检验;
[0045]步骤S3、对于多个稳定性检验结果进行组合测试;
[0046]步骤S4、根据组合测试结果判断是否为空间可变基因。
[0047]接下来,对本实施例方法的具体实现进行详细介绍。
[0048]本实施例使用了一个结直肠癌组织的空间转录组数据,该数据集为可免费获得的公开数据集(http://www.cancerdiversity.asia/scCRLM/)。
[0049]1、数据集预处理
[0050]过滤原始数据集不表达或者低表达的基因,本实施例使用的过滤标准为:过滤掉在所有spot中表达比例低于1%的基因。过滤后的数据集包括15427基因和4124个spot,包括78行,128列。
[0051]2、半池化处理
[0052]对每个基因在空间上的表达数据都按照给定的方向参数和步长参数计算平均值,具体四组参数分别为:
[0053]1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,该方法包括以下步骤:步骤S1、对每个基因的原始基因表达数据进行半池化处理;步骤S2、对半池化处理后的输出数据进行稳定性检验;步骤S3、对于多个稳定性检验结果进行组合测试;步骤S4、根据组合测试结果判断是否为空间可变基因。2.根据权利要求1所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤S1中的半池化处理,具体为:按照给定的K组半池化参数分别对空间转录组学数据进行平均值计算,将得到的输出数据按照空间位置重新排列为一维序列;其中,半池化参数包括方向参数和步长参数。3.根据权利要求2所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述半池化处理包括四组不同的半池化参数,分别为:1)方向:行方向,步长:n
row
;2)方向:行方向,步长:3)方向:列方向,步长:n
col
;4)方向:列方向,步长:其中,n
col
为空间转录组数据包含的列数,n
roe
为空间转录组数据包含的行数,[
·
]表示取整数。4.根据权利要求2所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤S2中的稳定性检验为Box

Pierce检验,用于对于不同半池化参数处理的输出数据分别进行稳定性检验。5.根据权利要求4所述的一种用于空间转录组学数据...

【专利技术属性】
技术研发人员:俞章盛袁欣马嫣然
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1