【技术实现步骤摘要】
一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法及系统
[0001]本专利技术属于生物信息学领域,涉及一种发现分子标志物的方法和系统,具体涉及一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法及系统。
技术介绍
[0002]基础医学研究的一项重要内容是在分子水平表征重要生物学过程的生理和病理状态并找到其中关键的基因。关键基因的分子水平特征具有可客观检测和评价的特性,可以作为生物标志物来指示正常生物学过程、病理状态以及治疗或干预过程中的药理学反应,助力疾病的早期诊断、分类、预后以及精准治疗。因此发现与特定病理生理相关的生物标志物成为基础医学研究的一项重要任务。
[0003]假说验证是传统的生物标志物发现的主要手段。这类方法需要依赖该领域的先验知识,先收集已知的病理生理学过程或已知功能的关键分子,在此基础上选出最可能的基因,再组织样本对这些关键分子及其产物在疾病样本和正常样本中的差异进行验证和评估,有些还会同时检测变异与疾病严重程度的相关性。该策略存在一定局限性:第一,这一策略假设了功能相关的分子,并将其作为候选对象进行考察、验证。因此它只能在较小范围内发现标志物,发现标志物的创新性可能不足。第二,验证阶段,要得到可靠结论,发现的标志物需要在大量样本中进行验证。工作量大,加之实验周期较长,一般采用多个实验人员,分批次并行推进。这些过程都可能引入较高的测量误差,导致评价不准确。三,根据先验知识提示的候选基因通常是来源于某个特定层面的研究,与生理和病理状态的关联程度有限,这使得发现的标志 ...
【技术保护点】
【技术特征摘要】
1.一种基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于,包括如下步骤:步骤1)公共稀有突变数据、拷贝数变异数据和感兴趣的基因集的收集和整理通过对公共稀有突变数据、拷贝数变异数据和感兴趣的基因集的收集和整理,获得目标疾病感兴趣的基因集、稀有突变的亚分类数据和拷贝数变异的亚分类数据;步骤2)突变贡献度分析对所有基因每种突变类型在患者组和健康人组中的贡献度进行分析,获得每种突变类型及其亚分类对疾病的贡献度;步骤3)突变负荷分析对感兴趣的基因集的每种突变类型在患者组和健康人组中的突变负荷进行分析,筛选出对疾病有显著贡献的突变亚分类;步骤4)基因贡献度分析对于每个基因,基于步骤3)中筛选出的对疾病有显著贡献的突变亚分类以及步骤2)中获得的对疾病有显著贡献的突变亚分类对目标疾病的贡献权重进行整合打分,先得到每个基因的每种突变类型对疾病的贡献度,进而通过每种突变类型对疾病的贡献度的累加得到每个基因对目标疾病的贡献度;步骤5)正向贡献基因筛选与分析对步骤4)中得到的每个基因对目标疾病的贡献度进行分析,筛选得到基因对疾病的贡献度值>0的所有对疾病有正向贡献的基因;然后通过对这些基因进行功能分析,评估这些基因主要参与的生物学通路是否与文献报道的相吻合;步骤6)候选标志物筛选对步骤5)中筛选出的对疾病有正向贡献的基因集与已知风险基因的共表达及蛋白互作网络进行分析,评估步骤5)中对疾病有正向贡献的基因集与已知风险基因集之间的关联强度,从而发现组学数据中可靠的生物标志物。2.根据权利要求1所述的基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤1)中对公共稀有突变数据、拷贝数变异数据和感兴趣的基因集的收集和整理的具体步骤为:1a)从公共数据库中收集目标疾病的突变数据,然后对突变位点进行注释获得突变的类型,突变所在的基因,基因组元件及突变频率信息;根据突变频率小于0.1%筛选得到稀有突变,并对稀有突变中的稀有的错义突变类型进行功能预测,然后依据稀有突变对生物功能的影响对所有稀有突变进行亚分类;1b)从公共数据库中收集目标疾病的拷贝数变异数据,然后对拷贝数变异位点进行注释获得每个拷贝数变异对疾病的致病性评估,然后根据拷贝数变异对疾病的致病性进行亚分类;1c)通过数据库和文献检索收集感兴趣的基因集。3.根据权利要求1所述基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤1a)中的突变数据的类型包括新生突变数据和遗传突变数据;步骤1b)中的拷贝数变异数据的类型包括新生拷贝数变异数据和遗传的拷贝数变异数据;步骤1c)中感兴趣的基因集为所有基因、某个生物学功能相关的基因或某个生物学过程相关
的基因。4.根据权利要求1所述的基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤2)中突变贡献度分析的具体步骤为:2a)根据步骤1)分析获得的稀有突变的亚分类数据及拷贝数变异的亚分类数据,对患者组和健康人组分别统计受到每种突变类型及其亚分类影响人数;2b)通过卡方检验计算受每种突变类型及其亚分类影响的患者罹患疾病的风险度,并将该风险度作对应突变类型和亚分类对目标疾病的贡献权重。5.根据权利要求1所述的基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤3)中突变负荷分析的具体步骤为:3a)对步骤1)分析获得的稀有突变的亚分类数据及拷贝数变异的亚分类数据,统计感兴趣的基因集中每类突变类型的每种亚分类数据在患者组及健康人组中的突变数目,加上对应患者及健康人的数目作为rateratio.test R包中的rateratio.test()函数的输入,进而评估患者组相对健康人组的突变负荷差异;根据比值比大于1同时p值小于0.05选出对疾病有显著贡献的突变亚分类;3b)在拷贝数变异分析中计算感兴趣的基因集中每类拷贝数变异类型的每种亚分类数据在患者组和健康人组中的突变负荷,具体计算公式如式(I)所示:其中,Geneset
CNV_abundance
表示感兴趣的基因集中每种拷贝数变异亚分类数据在患者组和健康人组中的突变负荷,患者组和健康人组分别统计;i代表患者组或健康人组个体;n代表患者组或健康人组个体总数;j代表某个个体中被拷贝数变异影响到的感兴趣的基因集中的基因;m代表某个个体中被拷贝数变异影响到的感兴趣的基因集中的基因总数;overlapped DNA lengths表示某个个体中被拷贝数变异影响到的某个基因与拷贝数变异区间的交叠长度;gene lengths in Geneset表示感兴趣的基因集中每个基因的长度。6.根据权利要求1所述的基于基因组稀有突变负荷变化和基因功能关联发现分子标志物的方法,其特征在于:步骤4)中基因贡献度分析的具体步骤为:4a)对于每个基因,在患者组及健康人组中分别统计步骤3)中筛选出的对疾病有显著贡献的突变亚分类中对疾病有显著贡献的突变亚分类的突变数目,并计算每种突变亚分类在患者组相对健康人组中的突变负荷比,公式如式(II)所示:其中,t代表对疾病有显著贡献的突变亚分类,i代表感兴趣的基因集中的基因;br
i,t
代表感兴趣的基因集中的某个基因在某种对疾病有显著贡献的突变亚分类下的突变负荷;Alterations
disease
代表在患者组中,某个基因的某种突变亚分类出现的次数;Sample
disease...
【专利技术属性】
技术研发人员:王涛,刘丽秋,孙中生,
申请(专利权)人:中国科学院动物研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。