当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于基因表达秩的病前状态快速检测方法技术

技术编号:38055060 阅读:14 留言:0更新日期:2023-06-30 11:20
本发明专利技术公开了一种基于基因表达秩的病前状态快速检测方法,包括以下步骤:(1)获取每个时间点所有基因的时序基因表达数据,筛选出正常数据,计算得到单个个体的基准表达数据;(2)将基准表达数据进行排序,得到基准表达秩;(3)将所有时序基因表达数据进行排序,得到每个时间点每个基因的表达秩,计算所有基因表达秩的变化分数;(4)对基因表达秩进行筛选,计算个体表达秩变化分数;(5)确定异常分数的阈值;(6)依据个体秩变化分数与阈值,识别疾病病前状态。本发明专利技术基于基因表达排序的变化与疾病发生发展的关系,具有计算简单快速的优点,同时基于排序可以在一定程度上去除实验批次效应及误差。误差。误差。

【技术实现步骤摘要】
一种基于基因表达秩的病前状态快速检测方法


[0001]本专利技术涉及生物信息学与计算生物学
,具体涉及一种基于基因表达秩,应用基因表达排序异常变化的病前状态快速检测的识别方法。

技术介绍

[0002]依据分叉理论,在疾病的发生与发展过程中,存在突然的恶化。故疾病的发生与发展过程可以被分为三个阶段:正常、病前、疾病。正常阶段即指疾病没有发生或处于正常稳定的阶段;疾病状态即指疾病发生并进入快速恶化阶段;病前状态则是指疾病即将发生,但整个机体系统还相对正常的临界状态。因此,识别病前状态,将会极大的促进现代医学的发展。基于动态系统的临界慢化理论,疾病的发生发展过程中,基因的表达在病前状态时存在剧烈的变化。但是,由于疾病的发生与发展往往是多个异常基因与生物分子相互作用的结果,同一疾病对于不同的个体在分子层面的原因存在很大的异质性。同时病前状态的识别需要观察一个个体时序发展的分子数据,相关数据在测试时会存在相应的时间批次效应。目前主流的方法是使用单个基因表达变化的方差以及基因间共表达关系的变化来识别病前状态。所以这些方法存在的主要问题有两方面,一方面通过方差难以规避批次效应,另一方面计算方差及共表达系数的过程相对比较复杂。
[0003]为了解决现有方法存在的两方面问题。在本专利技术中,使用时序的基因表达数据,基于每个时间点基因表达排序的异常变化,我们识别出疾病的病前状态。同时,由于本专利技术只使用病前状态相关的异常变化的基因表达排序,故计算简单方便快速。

技术实现思路

[0004]针对上述现有技术中的不足,本专利技术提供一种基于基因表达秩的病前状态快速检测方法,使用个性化时序基因表达数据实现疾病病前状态的检测,在保证病前状态检测准确性的同时,更加贴合动态系统变化的临界慢化理论,极大的缩短了计算耗时。
[0005]本专利技术的目的采用以下技术方案来实现:
[0006]一种基于基因表达秩的病前状态快速检测方法,包括以下步骤:
[0007](1)获取每个时间点所有基因的时序基因表达数据,筛选出正常数据,计算得到单个个体的基准表达数据;
[0008](2)将单个个体的基准表达数据进行排序,得到单个个体的基准表达秩;
[0009](3)将每个时间点所有基因的时序基因表达数据进行排序,得到每个时间点每个基因的表达秩,计算每个时间点所有基因表达秩的变化分数;
[0010](4)根据个体调控变化分数对每个时间点的基因表达秩进行筛选,计算每个时间点个体的表达秩变化分数;
[0011](5)确定异常分数的阈值;
[0012](6)依据每个时间点个体的表达秩变化分数与阈值,识别疾病病前状态。
[0013]优选地,所述步骤(1)中,正常数据为时序基因表达数据中前四个时间点的数据,
基准表达数据为正常数据中每个时间点表达值的平均表达值。
[0014]优选地,所述步骤(2)中,排序方式为按照基准表达数据从大到小进行排序。
[0015]优选地,所述步骤(3)中,排序方式为按照时序基因表达数据从大到小进行排序。
[0016]优选地,所述步骤(3)中,基因表达秩变化分数的计算公式如式(1)所示:
[0017][0018]其中s(g
i
,t)表示时间点t时刻基因g
i
相对于基准表达秩的变化分数,r(g
i,
t)与r(g
i
,t0)分别表示该基因g
i
在t时刻与基准数据(t0)下的表达秩大小,N表示表达数据中包含的基因的个数。
[0019]优选地,所述步骤(4)中,每个时间点个体调控变化分数计算公式如式(2)所示:
[0020][0021]其中S(t)为t时刻个体的调控变化分数,s(g
i
,t)表示时间点t时刻基因g
i
相对于基准表达秩的变化分数。
[0022]优选地,所述步骤(4)中,筛选条件为每个时间点个体调控变化分数最大的50个基因,个体表达秩变化分数为每个时间点选取的排名前50的基因对应的表达秩的变化值累加。
[0023]根据临界慢化理论及动态网络标志物理论,在临界点出现时,只有少部分的基因的表达会出现巨大的波动。所以为了准确的系统的异常,个体每个时间点的基因表达秩变化分数由该时间点变化最大的50个基因来确定。
[0024]优选地,所述步骤(5)中,阈值为所有个体正常时间点的表达秩变化分数中去掉一个最大值和最小值后余下的秩变化分数中最大的分数。
[0025]优选地,所述步骤(6)中,疾病病前状态时间点为个体的表达秩变化分数首次超过阈值的时间点。
[0026]优选地,对于所有个体,可以计算出所有时间点的基因表达秩变化分数,依据这些秩变化分数设置异常分数阈值,从而辅助识别个体疾病病前状态时间点。
[0027]本专利技术的有益效果为:
[0028]1、本专利技术方案在识别疾病病前状态方面有良好的精度。
[0029]2、本专利技术方案计算过程简单,计算耗时少。
[0030]3、本专利技术基于基因表达排序的变化与疾病发生发展的关系,具有计算简单快速的优点,同时基于排序可以在一定程度上去除实验批次效应及误差。
[0031]4、本专利技术基于基因表达秩,可广泛应用基因表达排序异常变化的病前状态快速的识别。
附图说明
[0032]图1为本专利技术实施例基于基因表达秩的病前状态快速检测方法的流程图;
[0033]图2为本专利技术实施例在流感个性化数据上表达秩变化分数的结果展示图;
[0034]图3为本专利技术实施例不同时间点症状组(Sx)和无症状组(Asx)的变化分数折线图。
具体实施方式
[0035]以下将结合实施例和附图对本专利技术的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本专利技术的目的、方案和效果。
[0036]下面结合附图和具体实施例对本专利技术做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0037]实施例
[0038]下面以具体实施例加以详细说明。
[0039]实施例1
[0040]一种基于基因表达秩的病前状态快速检测方法,包括以下步骤:
[0041](1)获取GEO数据库中流感数据集中每个时间点所有基因的时序基因表达数据,筛选出时序基因表达数据中起始的4个时间点(Baseline、0h、5h、12h)作为处于正常状态的时间点的数据,将这四个时间点下该基因的表达值的平均值作为基准表达值,得到基准数据;
[0042]以GEO数据库中流感数据集:GSE30550为例,该数据集的具体信息如表1所示。
[0043]表1.单样本时序流感数据集样本数量信息
[0044][0045](2)将单个个体的基准表达数据从大到小进行排序,得到单个个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于基因表达秩的病前状态快速检测方法,其特征在于,包括以下步骤:(1)获取每个时间点所有基因的时序基因表达数据,筛选出正常数据,计算得到单个个体的基准表达数据;(2)将单个个体的基准表达数据进行排序,得到单个个体的基准表达秩;(3)将每个时间点所有基因的时序基因表达数据进行排序,得到每个时间点每个基因的表达秩,计算每个时间点所有基因表达秩的变化分数;(4)根据调控变化分数对每个时间点的基因表达秩进行筛选,计算每个时间点个体的表达秩变化分数;(5)确定异常分数的阈值;(6)依据个体每个时间点的表达秩变化分数与阈值,识别疾病病前状态。2.根据权利要求1所述的基于基因表达秩的病前状态快速检测方法,其特征在于,所述步骤(1)中,正常数据为时序基因表达数据中前四个时间点的数据,基准表达数据为正常数据中每个时间点表达值的平均表达值。3.根据权利要求1所述的基于基因表达秩的病前状态快速检测方法,其特征在于,所述步骤(2)中,排序方式为按照基准表达数据从大到小进行排序。4.根据权利要求1所述的基于基因表达秩的病前状态快速检测方法,其特征在于,所述步骤(3)中,排序方式为按照时序基因表达数据从大到小进行排序。5.根据权利要求1所述的基于基因表达秩的病前状态快速检测方法,其特征在于,所述步骤(3)中,基因表达秩变化分数的计算公式如式(1)所示:其中s(g
i
,t)表示时间点t时刻基因g
i
相对于基准表达秩的变化分数,r(g<...

【专利技术属性】
技术研发人员:许鹏韦至韬鲍振申李先彬刘文斌
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1