一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法及系统技术方案

技术编号:33765008 阅读:12 留言:0更新日期:2022-06-12 14:15
本发明专利技术公开了一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法及系统,该方法包括:公共稀有突变数据、拷贝数变异数据和感兴趣的基因集的收集和整理;突变贡献度分析;突变负荷分析;基因贡献度分析;正向贡献基因筛选与分析;候选标志物筛选。本发明专利技术充分考虑了多种遗传突变类型对疾病的贡献强度,并利用了脑表达及蛋白互作基因之间的内在关联,标志物发现的过程经历了多种不同类型数据的相互支持,鉴定的标志物更加全面。鉴定的标志物更加全面。鉴定的标志物更加全面。

【技术实现步骤摘要】
一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法及系统


[0001]本专利技术属于生物信息学领域,涉及一种发现分子标志物的方法和系统,具体涉及一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法及系统。

技术介绍

[0002]基础医学研究的一项重要内容是在分子水平表征重要生物学过程的生理和病理状态并找到其中关键的基因。关键基因的分子水平特征具有可客观检测和评价的特性,可以作为生物标志物来指示正常生物学过程、病理状态以及治疗或干预过程中的药理学反应,助力疾病的早期诊断、分类、预后以及精准治疗。因此发现与特定病理生理相关的生物标志物成为基础医学研究的一项重要任务。
[0003]假说验证是传统的生物标志物发现的主要手段。这类方法需要依赖该领域的先验知识,先收集已知的病理生理学过程或已知功能的关键分子,在此基础上选出最可能的基因,再组织样本对这些关键分子及其产物在疾病样本和正常样本中的差异进行验证和评估,有些还会同时检测变异与疾病严重程度的相关性。该策略存在一定局限性:第一,这一策略假设了功能相关的分子,并将其作为候选对象进行考察、验证。因此它只能在较小范围内发现标志物,发现标志物的创新性可能不足。第二,验证阶段,要得到可靠结论,发现的标志物需要在大量样本中进行验证。工作量大,加之实验周期较长,一般采用多个实验人员,分批次并行推进。这些过程都可能引入较高的测量误差,导致评价不准确。三,根据先验知识提示的候选基因通常是来源于某个特定层面的研究,与生理和病理状态的关联程度有限,这使得发现的标志物在灵敏度和特异性上都不足,因此需要多个标志物联合使用,最终导致解读复杂,阻碍了标志物的临床转化。
[0004]进入本世纪以来,生物芯片、新一代测序等高通量技术快速发展和成熟,组学数据的大量出现也催生了一系列基于组学技术的标志物发现的策略,弥补了基于传统的假说验证方法发现标志物的不足。该策略的特点是数据驱动,借力多组学数据可以全面表征样本的生理或病理状态,通过分析不同状态的生物样品产生的大量数据,获得与表型相关的标志物。该方法对领域知识依赖小,可在大范围内发现标志物,且发现的标志物新。另外,该方法还具有高敏感度、特异性的优点。
[0005]迄今为止,医学界已经建立了多种组学技术,包括基因组,转录组,蛋白组,代谢组等。基因组承载了生物体全部遗传信息,通过基因组测序以及基因连锁分析方法在全基因组范围内发现疾病风险基因或风险位点的方法已经发现了大量的生物标志物。但是,目前的基因标志物研究一般都是基于单一层面的基因组变异数据,通过比较分析患病组与健康人组的基因组变异数据从而发现与疾病或表型相关的基因或变异位点,锁定候选标志物,再组织验证。这一基因标志物发现的策略也有其固有的局限。一是单次实验往往局限于某个特定人群,因此找到的标志物在人群间的重复性不高。二是基于基因组变异预测标志物的方法一般仅针对某种或某几种特定的变异类型进行标志物鉴定,可能忽略那些在单一维
度上变异频率很小但具有多种变异类型的基因。

技术实现思路

[0006]为了解决上述问题,本专利技术的目的在于提供一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法。
[0007]本专利技术的另一目的在于提供一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的系统。
[0008]为了实现上述目的,本专利技术提供一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,包括如下步骤:
[0009]步骤1)公共稀有突变数据、拷贝数变异数据和感兴趣的基因集的收集和整理
[0010]通过对公共稀有突变数据、拷贝数变异数据和感兴趣的基因集的收集和整理,获得目标疾病感兴趣的基因集、稀有突变的亚分类数据和拷贝数变异的亚分类数据;
[0011]步骤2)突变贡献度分析
[0012]对所有基因每种突变类型在患者组和健康人组中的贡献度进行分析,获得每种突变类型及其亚分类对疾病的贡献度;
[0013]步骤3)突变负荷分析
[0014]对感兴趣的基因集的每种突变类型在患者组和健康人组中的突变负荷进行分析,筛选出对患者组相对健康人组对疾病有显著贡献的突变亚分类;
[0015]步骤4)基因贡献度分析
[0016]对于每个基因,基于步骤3)中筛选出的对疾病有显著贡献的突变亚分类以及步骤2)中获得的对疾病有显著贡献的突变亚分类对目标疾病的贡献权重进行整合打分,先得到每个基因的每种突变类型对疾病的贡献度,进而通过每种突变类型对疾病的贡献度的累加得到每个基因对目标疾病的贡献度;
[0017]步骤5)正向贡献基因筛选与分析
[0018]对步骤4)中得到的每个基因对目标疾病的贡献度进行分析,筛选得到基因对疾病的贡献度值>0的所有对疾病有正向贡献的基因;然后通过对这些基因的功能进行分析,评估这些基因主要参与的生物学通路是否与文献报道的相吻合;
[0019]步骤6)候选标志物筛选
[0020]对步骤5)中筛选出的对疾病有正向贡献的基因集与已知风险基因的共表达及蛋白互作网络进行分析,评估步骤5)中对疾病有正向贡献的基因集与已知风险基因集之间的关联强度,从而发现组学数据中可靠的生物标志物。
[0021]如上所述,步骤1)中对公共稀有突变数据、拷贝数变异数据和目标疾病感兴趣的基因集的收集和整理的具体步骤为:
[0022]1a)从公共数据库中收集目标疾病的突变数据,然后对突变位点进行注释获得突变的类型,突变所在的基因,基因组元件及突变频率信息;根据突变频率小于0.1%筛选得到稀有突变,并对稀有突变中的稀有的错义突变类型进行功能预测,然后依据稀有突变对生物功能的影响对所有稀有突变进行亚分类;
[0023]1b)从公共数据库中收集目标疾病的拷贝数变异数据,然后对拷贝数变异位点进行注释获得每个拷贝数变异对疾病的致病性评估,然后根据拷贝数变异对疾病的致病性进
行亚分类。
[0024]1c)通过数据库和文献检索收集感兴趣的基因集。
[0025]其中,步骤1a)中的突变数据的类型包括新生突变(de novo mutations,DNMs)数据和遗传突变(inherited variations)数据;步骤1b)中的拷贝数变异数据的类型包括新生拷贝数变异(de novo copy number variations,dnCNVs)数据和遗传的拷贝数变异(inherited copy number variations,ihCNVs)数据;步骤1c)中感兴趣的基因集为所有基因、某个生物学功能相关的基因或某个生物学过程相关的基因。
[0026]如上所述,步骤2)中突变贡献度分析的具体步骤为:
[0027]2a)根据步骤1)分析获得的稀有突变的亚分类数据及拷贝数变异的亚分类数据,对患者组和健康人组分别统计受到每种突变类型及其亚分类影响的人数。
[0028]2b)通过卡方检验计算受每种突变类型及其亚分类影响的患者罹患疾病本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于,包括如下步骤:步骤1)公共稀有突变数据、拷贝数变异数据和感兴趣的基因集的收集和整理通过对公共稀有突变数据、拷贝数变异数据和感兴趣的基因集的收集和整理,获得目标疾病感兴趣的基因集、稀有突变的亚分类数据和拷贝数变异的亚分类数据;步骤2)突变贡献度分析对所有基因每种突变类型在患者组和健康人组中的贡献度进行分析,获得每种突变类型及其亚分类对疾病的贡献度;步骤3)突变负荷分析对感兴趣的基因集的每种突变类型在患者组和健康人组中的突变负荷进行分析,筛选出对疾病有显著贡献的突变亚分类;步骤4)基因贡献度分析对于每个基因,基于步骤3)中筛选出的对疾病有显著贡献的突变亚分类以及步骤2)中获得的对疾病有显著贡献的突变亚分类对目标疾病的贡献权重进行整合打分,先得到每个基因的每种突变类型对疾病的贡献度,进而通过每种突变类型对疾病的贡献度的累加得到每个基因对目标疾病的贡献度;步骤5)正向贡献基因筛选与分析对步骤4)中得到的每个基因对目标疾病的贡献度进行分析,筛选得到基因对疾病的贡献度值>0的所有对疾病有正向贡献的基因;然后通过对这些基因进行功能分析,评估这些基因主要参与的生物学通路是否与文献报道的相吻合;步骤6)候选标志物筛选对步骤5)中筛选出的对疾病有正向贡献的基因集与已知风险基因的共表达及蛋白互作网络进行分析,评估步骤5)中对疾病有正向贡献的基因集与已知风险基因集之间的关联强度,从而发现组学数据中可靠的生物标志物。2.根据权利要求1所述的基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤1)中对公共稀有突变数据、拷贝数变异数据和感兴趣的基因集的收集和整理的具体步骤为:1a)从公共数据库中收集目标疾病的突变数据,然后对突变位点进行注释获得突变的类型,突变所在的基因,基因组元件及突变频率信息;根据突变频率小于0.1%筛选得到稀有突变,并对稀有突变中的稀有的错义突变类型进行功能预测,然后依据稀有突变对生物功能的影响对所有稀有突变进行亚分类;1b)从公共数据库中收集目标疾病的拷贝数变异数据,然后对拷贝数变异位点进行注释获得每个拷贝数变异对疾病的致病性评估,然后根据拷贝数变异对疾病的致病性进行亚分类;1c)通过数据库和文献检索收集感兴趣的基因集。3.根据权利要求1所述基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤1a)中的突变数据的类型包括新生突变数据和遗传突变数据;步骤1b)中的拷贝数变异数据的类型包括新生拷贝数变异数据和遗传的拷贝数变异数据;步骤1c)中感兴趣的基因集为所有基因、某个生物学功能相关的基因或某个生物学过程相关
的基因。4.根据权利要求1所述的基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤2)中突变贡献度分析的具体步骤为:2a)根据步骤1)分析获得的稀有突变的亚分类数据及拷贝数变异的亚分类数据,对患者组和健康人组分别统计受到每种突变类型及其亚分类影响人数;2b)通过卡方检验计算受每种突变类型及其亚分类影响的患者罹患疾病的风险度,并将该风险度作对应突变类型和亚分类对目标疾病的贡献权重。5.根据权利要求1所述的基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤3)中突变负荷分析的具体步骤为:3a)对步骤1)分析获得的稀有突变的亚分类数据及拷贝数变异的亚分类数据,统计感兴趣的基因集中每类突变类型的每种亚分类数据在患者组及健康人组中的突变数目,加上对应患者及健康人的数目作为rateratio.test R包中的rateratio.test()函数的输入,进而评估患者组相对健康人组的突变负荷差异;根据比值比大于1同时p值小于0.05选出对疾病有显著贡献的突变亚分类;3b)在拷贝数变异分析中计算感兴趣的基因集中每类拷贝数变异类型的每种亚分类数据在患者组和健康人组中的突变负荷,具体计算公式如式(I)所示:其中,Geneset
CNV_abundance
表示感兴趣的基因集中每种拷贝数变异亚分类数据在患者组和健康人组中的突变负荷,患者组和健康人组分别统计;i代表患者组或健康人组个体;n代表患者组或健康人组个体总数;j代表某个个体中被拷贝数变异影响到的感兴趣的基因集中的基因;m代表某个个体中被拷贝数变异影响到的感兴趣的基因集中的基因总数;overlapped DNA lengths表示某个个体中被拷贝数变异影响到的某个基因与拷贝数变异区间的交叠长度;gene lengths in Geneset表示感兴趣的基因集中每个基因的长度。6.根据权利要求1所述的基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤4)中基因贡献度分析的具体步骤为:4a)对于每个基因,在患者组及健康人组中分别统计步骤3)中筛选出的对疾病有显著贡献的突变亚分类中对疾病有显著贡献的突变亚分类的突变数目,并计算每种突变亚分类在患者组相对健康人组中的突变负荷比,公式如式(II)所示:其中,t代表对疾病有显著贡献的突变亚分类,i代表感兴趣的基因集中的基因;br
i,t
代表感兴趣的基因集中的某个基因在某种对疾病有显著贡献的突变亚分类下的突变负荷;Alterations
disease
代表在患者组中,某个基因的某种突变亚分类出现的次数;Sample
disease...

【专利技术属性】
技术研发人员:王涛刘丽秋孙中生
申请(专利权)人:中国科学院动物研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1