一种基于基因表达数据评估基因间相关性概率的方法技术

技术编号:39395679 阅读:8 留言:0更新日期:2023-11-19 15:50
本发明专利技术公开了一种基于基因表达数据评估基因间相关性概率的方法,其步骤包括:1)获取基因表达矩阵,所述基因表达矩阵的行为基因,所述基因表达矩阵的列为生物样本,所述基因表达矩阵中第m行第n列的元素值表示第m个基因在第n个生物样本中的表达水平;2)计算所述基因表达矩阵中所有两两基因构成的基因对的相关系数,根据所得各相关系数构建一相关系数矩阵;3)基于所述相关系数矩阵中的所有元素构建一个范围为[

【技术实现步骤摘要】
一种基于基因表达数据评估基因间相关性概率的方法


[0001]本专利技术属于生命科学领域,具体涉及高通量技术(如RNA测序技术、质谱技术、单细胞测序技术等)产出的基因(或蛋白质)表达数据,是一种基于基因表达数据估算基因间相关性概率的方法。

技术介绍

[0002]基因及其产物(蛋白质和其他小分子)并非独立发挥作用,而是在一个复杂系统中相互作用,相互协调。通过基因表达谱评估基因间的相关性是预测基因间潜在的功能和调控关联,重构基因调控网络的主要手段。基因间的相关性在生物信息学、系统生物学和精准医学领域具有重要的应用价值,例如预测转录因子与靶基因之间、蛋白质与蛋白质之间的相互作用,探究疾病发生和发展过程中的分子调节机制,以及为疾病的诊断和治疗提供新的靶点和策略。
[0003]目前,相关系数被广泛用于评估基因在表达数据中的相关程度。常用的相关系数有Pearson相关系数、Spearman秩相关系数和Kendall秩相关系数等。相关系数的取值范围为[

1,1],其中

1表示完全负相关,0表示不相关,1表示完全正相关。相关系数的绝对值越大,两个基因的线性关系越强,它们存在功能关联的概率越高。然而,相关系数只能反应变量的线性关联程度却无法计算具体的相关性概率。目前仍然缺乏计算变量相关性概率的有效手段。这主要是由于我们难以获得相关系数的概率分布。尽管相关性检验假定相关系数符合特定自由度的t分布,但t分布并非相关系数的准确分布,主要原因有二:
[0004]1)相关系数的取值范围为[<br/>‑
1,1],而t分布的取值范围为(

∞,∞)。因此,相关系数的准确概率分布应该满足[

1,1]之间概率密度曲线下的面积为1;
[0005]2)在概率论和统计学中,t分布用于根据小样本来估计呈正态分布且标准差未知的总体的均值。因此,t分布是在样本量不足的情况下对正态分布的近似估计。

技术实现思路

[0006]针对现有技术中存在的技术问题,本专利技术的目的在于提供一种基于基因表达数据评估基因间相关性概率的方法。当有办法获取足够大的样本总体,可以为相关系数构建更准确的概率分布;而高通量的基因表达数据往往包含成千上万的基因,这些基因进一步组成更多的基因对。所有基因对的相关系数不仅总量大,且靠近0数量较多,靠近1和

1数量较少,这为构建[

1,1]之间的正态分布创造了条件。
[0007]本专利技术优化了相关系数的概率分布,并基于该概率分布开发了首个基因间相关性概率的估算方法。该方法以基因表达数据(微阵列数据、RNA测序数据、蛋白质质谱数据、单细胞测序数据等)作为输入,首先利用所有基因对的相关系数构建[

1,1]之间的近似正态分布,然后基于累积分布函数估算任意一对基因的相关性概率,预测结果可用于基因聚类、调控网络推断、功能模块挖掘等一系列后续分析。
[0008]本专利技术基于基因表达数据评估基因间相关性概率的方法步骤包括:
[0009]步骤1)利用实验手段或直接从公共数据库中获取基因表达数据(又称基因表达矩阵,矩阵的行表示所有基因,矩阵的列表示所有生物样本,矩阵的值表示基因在特定生物样本中的表达水平,包括转录出的RNA水平或翻译出的蛋白质水平)。实验手段包括基于高通量测序技术检测生物样本中的RNA水平,或基于质谱技术检测生物样本中的蛋白质水平;公共数据库包括Gene Expression Omnibus(GEO)、The Cancer Genome Atlas Program(TCGA)和ArrayExpress等。
[0010]步骤2)假设获取的基因表达矩阵包含m行n列(m
×
n,m为基因数,n为生物样本数),计算该矩阵中所有两两基因构成的基因对的相关系数(例如Pearson相关系数、Spearman相关系数、kendall相关系数和余弦相似度等),这些相关系数构建成(m
×
m)的相关系数矩阵。
[0011]步骤3)基于相关系数矩阵的所有元素构建一个范围为[

1,1]的近似正态分布,横轴表示相关系数,纵轴表示正态分布的概率密度。对于平均数为μ,标准差为σ的正态分布,其概率密度函数为值得注意的是,该分布的均值μ往往接近0但不等于0,这是由于样本总体足够大时,大于0和小于0的相关系数没有显著差异,但又不完全相同。
[0012]步骤4)定义相关系数的最小阈值r
min
∈[0,1]。当一基因对的相关系数的绝对值|r|&lt;r
min
,则该基因对的相关性概率为0;当基因对的相关系数绝对值|r|≥r
min
,进一步基于步骤3)的近似正态分布的累积分布函数估算该基因对的相关性概率(详见“具体实施方式”)。
[0013]基于上述内容,本专利技术的技术方案为:
[0014]一种基于基因表达数据评估基因间相关性概率的方法,其步骤包括:
[0015]1)获取基因表达矩阵,所述基因表达矩阵的行为基因,所述基因表达矩阵的列为生物样本,所述基因表达矩阵中第m行第n列的元素值表示第m个基因在第n个生物样本中的表达水平;
[0016]2)计算所述基因表达矩阵中所有两两基因构成的基因对的相关系数,根据所得各相关系数构建一相关系数矩阵;
[0017]3)基于所述相关系数矩阵中的所有元素构建一个范围为[

1,1]的近似正态分布,所述近似正态分布的横轴表示相关系数、纵轴表示概率密度;
[0018]4)设置相关系数的最小阈值r
min
∈[0,1];若基因对的相关系数的绝对值|r|&lt;r
min
,则该基因对的相关性概率为0,否则基于所述近似正态分布的累积分布函数估算该基因对的相关性概率。
[0019]进一步的,估算该基因对的相关性概率的方法为:首先计算所述近似正态分布的曲线下总面积S
total
=CDF(1)

CDF(

1),其中CDF表示所述近似正态分布的累积分布函数;以及计算相关系数r的基因对所对应的面积S
r
=CDF(|r|)

CDF(

|r|);然后计算相关系数为r的基因对所对应的相关性概率P
r
=S
r
/S
total

[0020]进一步的,计算最小阈值r
min
对应的面积S
min
=CDF(r
min
)

CDF(

r
min
);相关系数为r的基因对所对应的相关性概率
[0021]进一步的,所述近似正态分布的累积分布函数为其中,μ代表近似正态分布的均值,σ代表近似正态分布的标准差本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于基因表达数据评估基因间相关性概率的方法,其步骤包括:1)获取基因表达矩阵,所述基因表达矩阵的行为基因,所述基因表达矩阵的列为生物样本,所述基因表达矩阵中第m行第n列的元素值表示第m个基因在第n个生物样本中的表达水平;2)计算所述基因表达矩阵中所有两两基因构成的基因对的相关系数,根据所得各相关系数构建一相关系数矩阵;3)基于所述相关系数矩阵中的所有元素构建一个范围为[

1,1]的近似正态分布,所述近似正态分布的横轴表示相关系数、纵轴表示概率密度;4)设置相关系数的最小阈值r
min
∈[0,1];若基因对的相关系数的绝对值|r|&lt;r
min
,则该基因对的相关性概率为0,否则基于所述近似正态分布的累积分布函数估算该基因对的相关性概率。2.根据权利要求1所述的方法,其特征在于,估算该基因对的相关性概率的方法为:首先计算所述近似正态分布的曲线下总面积S
total
=CDF(1)

CDF(

1),其中CDF表示所述近似正态分布的累积分布函数;以及计算相关系数r的基因对所对应的面积S
r
=CDF(|r|)

CDF(

|r|);然后计算相关系数为r的基因对所对应的相关性概率P
r
=S
r
/S
total
。3.根据权利要求2所述的方法,其特征在于,计算最小阈值r
min
对应的面积S
min
=CDF(r
min
)

CDF(

r
min

【专利技术属性】
技术研发人员:朱云平韩明飞陈洨清徐小放陈涛
申请(专利权)人:中国人民解放军军事科学院军事医学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1