影响医学结局变量关键分子的筛选方法、系统、终端和存储介质技术方案

技术编号:31693912 阅读:18 留言:0更新日期:2022-01-01 10:53
本申请提供了一种影响医学结局变量关键分子的筛选方法、系统、智能终端和计算机可读存储介质。本申请基于多次有放回分层随机取样的回归算法,能够实现高通测序数据的降维,进而精准地筛选出在高通量测序数据中对特定的结局变量有显著影响的关键分子。除此之外,本申请还提供了一种评价回归模型稳定性的方法,实现了关键分子的稳定性评价,即通过计算自变量x的稳定系数γ来评价自变量对结局变量影响的稳定性大小,实现了关键分子影响稳定性的量化,该方法简洁有效,实用性强。本申请的技术方案有助于解决医学中回归模型不稳定且重复性差的技术难题,并提高高通量测序大数据的临床转化效率。转化效率。

【技术实现步骤摘要】
影响医学结局变量关键分子的筛选方法、系统、终端和存储介质


[0001]本专利技术涉及高通量测序领域,特别是涉及一种基于高通量测序数据筛选影响医学中的结局变量的关键分子的算法。

技术介绍

[0002]随着高通量测序技术(High

throughput sequencing technology)的发展,借助高通量测序的技术手段,探索发育进程、肿瘤发生已经日益普遍。高通量测序技术主要包括基因组测序、转录组测序、蛋白质组测序、修饰蛋白质组测序以及代谢组测序。高通量测序数据是对遗传信息的横断面解析,反映的是生物体在某个时间点上所有遗传物质的突变、修饰或者表达状况。例如人的高通量测序就是对人体所有基因在某个时间点上的分析,因此,高通量测序将产生巨量的数据。对测序数据进行深入、正确的分析是生物信息学家面临的重要课题。借助计算机的强大算力对高通量测序数据进行解析是目前生物信息学发展的主要方式。面对高通量测序数据,分析的方向主要由两个:聚类和降维。聚类的思想是把具有类似模式的样本聚集在一起,从而实现对样本亚群的新认知;降维的思想是将数据从高通量的“高维”降低到关键分子(包括DNA、RNA和蛋白质)的“低维”,从大量数据中筛选出关键分子,用于后续的分析。目前,降维的方法主要依靠公共数据库的注释,但是并没有出现对于医学中的某个特定结局变量(例如,患者复发与否、患者死亡与否、药物敏感性等)有显著且稳定影响的数据的降维方法。

技术实现思路

[0003]为了克服现有技术中的没有出现对于医学中的某个特定结局变量有稳定影响的数据的降维方法的技术缺陷,本专利技术的第一个方面提供了一种影响医学结局变量关键分子的筛选方法,包括以下步骤:
[0004]步骤S1:生成随机分层样本表,具体包括以下步骤:
[0005]步骤S1.1:对全部样本进行样本分层:根据医学中的结局变量的不同,将全部样本集合S划分为子集S1,S2,...,S
n
,全部样本的总数量大于50;
[0006]S=S1∪S2∪...∪Sn,|S|>50
[0007]其中,S1,S2,...,S
n
之间两两互斥;
[0008]步骤S1.2:进行多次有放回分层随机取样:在步骤S1.1之后,对于每一层进行随机取样,每一次分层随机取样的样本数量N的计算公式为:
[0009]N=k1×
r+k2×
r+
……
+k
n
×
r
[0010]其中,r为每一个子样本层的每次取样的比例,分层随机取样的总次数m≥100次,最终生成随机分层样本表;
[0011]步骤S2:分别对每一次分层随机取样获得的抽取样本进行回归分析:
[0012]对于医学中的与时间有关的结局变量,采用COX比例风险回归,COX比例风险回归
的计算公式为:
[0013]ln[h(t,X)/h0(t)]=ln RR=β1x1+β2x2+


m
x
m
[0014]其中,h(t,X)为t时刻发生X事件的危险度;h0(t)表示所有协变量取值为0时的风险函数,也称为基准风险函数;RR表示相对危险度;x1,x2,...,x
m
分别为影响X事件发生的协变量;β1、β2、β
m
分别为协变量系数,负值表示X事件的保护因素,正值表示X事件的危险因素,其绝对值表示对X事件影响力的大小,采用常规log

rank方法计算P值;
[0015]对于医学中的与时间无关的二分类结局变量,采用Logistic回归,Logistic回归的计算公式为:
[0016]logitP=α+β1x1+β2x2+


m
x
m
[0017]其中,P为结局变量的发生概率,α是为了使得等式成立而由计算得出的常数项,x1,x2,...,x
m
为协变量;β1、β2、β
m
分别为协变量系数;
[0018]步骤S3:筛选出对医学中的结局变量有显著影响的关键分子:对于步骤S2中的分层随机取样获得的抽取样本进行m次回归分析,对回归结果进行log

rank检验得到P值,分别记为P1,P2,P3,...,P
m
,以P<0.05为统计有显著意义,筛选出在至少75%的抽样次数中均有显著意义的关键分子,即得对医学中的结局变量有显著影响的关键分子;
[0019]步骤S4:筛选出对医学中的结局变量有显著且稳定影响的关键分子:统计结果有意义的次数n,以稳定系数γ表示自变量x(自变量x是指不同的关键分子)对结局变量y影响的稳定程度,则自变量x对结局变量y影响的稳定系数γ为:
[0020][0021]然后按照稳定系数γ的大小,将在至少75%的抽样次数中均有显著意义的关键分子进行降序排列,从而筛选出对医学中的结局变量有显著且稳定影响的关键分子。
[0022]进一步地,步骤S1进一步包括:
[0023]步骤S1.3:可视化所述随机分层样本表:使用基于R语言的pheatmap函数展示每次参与回归分析的样本;并使用基于R语言的ggplot2函数展示每个样本参与回归分析的频率。
[0024]进一步地,在步骤S1.2中,每一个子样本层的每次取样的比例r为50%~90%。
[0025]进一步地,所述关键分子选自DNA、RNA、蛋白质中的任一种或两种以上。
[0026]本专利技术的第二个方面提供一种影响医学中的结局变量的关键分子的筛选系统,包括:随机分层样本表生成模块、回归分析模块和筛选模块;
[0027]所述随机分层样本表生成模块包括分层模块和取样模块,
[0028]所述分层模块用于对全部样本进行样本分层:根据医学中的结局变量的不同,将全部样本集合S划分为子集S1,S2,...,S
n
,全部样本的总数量大于50;
[0029]S=S1∪S2∪...∪Sn,|S|>50
[0030]其中,S1,S2,...,S
n
之间两两互斥;
[0031]所述取样模块用于进行多次有放回的分层随机取样:在步骤S11之后,对于每一层进行随机取样,每一次分层随机取样的样本数量N的计算公式为:
[0032]N=k1×
r+k2×
r+
……
+k
n
×
r
[0033]其中,r为每一个子样本层的每次取样的比例,分层随机取样的总次数m≥100次,
最终生成随机分层样本表;
[0034]所述回归分析模块用于分别对每一次分层随机取样获得的抽取样本进行回归分析:
[0035]对于医学中的与时间有关的结局变量,采用COX比例风险回归,COX比例风险回归的计算公式为:
[0036]ln[h(t,X)/h0(t)]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种影响医学中的结局变量的关键分子的筛选方法,其特征在于,包括以下步骤:步骤S1:生成随机分层样本表,具体包括以下步骤:步骤S1.1:对全部样本进行样本分层:根据医学中的结局变量的不同,将全部样本集合S划分为子集S1,S2,

,S
n
,全部样本的总数量大于50;S=S1∪S2∪

∪Sn,|S|>50其中,S1,S2,

,S
n
之间两两互斥;步骤S1.2:进行多次有放回的分层随机取样:在步骤S11之后,对于每一层进行随机取样,每一次分层随机取样的样本数量N的计算公式为:N=k1×
r+k2×
r+
……
+k
n
×
r其中,r为每一个子样本层的每次取样的比例,分层随机取样的总次数m≥100次,最终生成随机分层样本表;步骤S2:分别对每一次分层随机取样获得的抽取样本进行回归分析:对于医学中的与时间有关的结局变量,采用COX比例风险回归,COX比例风险回归的计算公式为:ln[h(t,X)/h0(t)]=ln RR=β1x1+β2x2+


m
x
m
其中,h(t,X)为t时刻发生X事件的危险度;h0(t)表示所有协变量取值为0时的风险函数,也称为基准风险函数;RR表示相对危险度;x1,x2,

,x
m
分别为影响X事件发生的协变量;β1、β2、β
m
分别为协变量系数,负值表示X事件的保护因素,正值表示X事件的危险因素,其绝对值表示对X事件影响力的大小,采用常规log

rank方法计算P值;对于医学中的与时间无关的二分类结局变量,采用Logistic回归,Logistic回归的计算公式为:logitP=α+β1x1+β2x2+


m
x
m
其中,P为结局变量的发生概率,α是为了使得等式成立而由计算得出的常数项,x1,x2,

,x
m
为协变量;β1、β2、β
m
分别为协变量系数;步骤S3:筛选出对医学中的结局变量有显著影响的关键分子:对于步骤S2中的分层随机取样获得的抽取样本进行m次回归分析,对回归结果进行log

rank检验得到P值,分别记为P1,P2,P3,

,P
m
,以P<0.05为统计有显著意义,筛选出在至少75%的抽样次数中均有显著意义的关键分子,即得对医学中的结局变量有显著影响的关键分子;步骤S4:筛选出对医学中的结局变量有显著且稳定影响的关键分子:统计结果有意义的次数n,以稳定系数γ表示自变量x对结局变量y影响的稳定程度,则自变量x对结局变量y影响的稳定系数γ为:然后按照稳定系数γ的大小,将在至少75%的抽样次数中均有显著意义的关键分子进行降序排列,从而筛选出对医学中的结局变量有显著且稳定影响的关键分子。2.如权利要求1所述的影响医学中的结局变量的关键分子的筛选方法,其特征在于,步骤S1进一步包括:步骤S1.3:可视化所述随机分层样本表:使用基于R语言的pheatmap函数展示每次参与回归分析的样本;并使用基于R语言的ggplot2函数展示每个样本参与回归分析的频率。
3.如权利要求1所述的影响医学中的结局变量的关键分子的筛选方法,其特征在于,在步骤S1.2中,每一个子样本层的每次取样的比例r为50%~90%。4.如权利要求1

3任一项所述的影响医学中的结局变量的关键分子的筛选方法,其特征在于,所述关键分子选自DNA、RNA、蛋白质中的任一种或两种以上。5.一种影响医学中的结局变量的关键分子的筛选系统,其特征在于,包括:随机分层样本表生成模块、回归分析模块和筛选模块;所述随机分层样本表生成模块包括分层模块和取样模块,所述分层模块用于对全部样本进行样本分层:根据医学中的结局变量的不同,将全部样本集合S划分为子集S1,S...

【专利技术属性】
技术研发人员:李风伟王葵沈锋夏勇阎振林薛辉杨钊张磊武烨晔张世超庄国琨徐新飞施晓冬李尧胡志亮
申请(专利权)人:中国人民解放军海军军医大学第三附属医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1