当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法技术

技术编号:18084338 阅读:66 留言:0更新日期:2018-05-31 12:45
本发明专利技术公开了一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法,包括以下步骤:(1)整理数据为标准格式;(2)计算背景变异率;(3)统计学检验癌症驱动基因;(4)蒙特卡洛模拟统计量分布;(5)P值调整。本发明专利技术考虑了各个样本、基因和突变类型的背景变异率、多种突变类型对蛋白质功能的影响,采用得分检验来判断驱动基因,具有高稳健性,广泛适用于各类型癌症;并且在敏感性和特异性间达到了较好的平衡,既能检测到较多数量的驱动基因,又能保持较低的假阳性。本发明专利技术对于寻找癌症治疗的潜在位点和抗癌药物开发都具有重要意义。

【技术实现步骤摘要】
一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法
本专利技术属于生物信息学和癌症医学交叉领域,涉及一种采用机器学习和多种统计学方法的癌症驱动基因鉴定方法。
技术介绍
癌症大部分是体细胞发生突变所引起的疾病。驱动基因是直接导致癌症发生发展的因素,另一方面,乘客基因和癌症之间没有直接关系,因此有必要把驱动基因鉴定出来。世界几大肿瘤测序工程比如癌症基因组图谱工程(TCGA)、国际癌症基因组协会工程(ICGC)和临床应用研究到一般有效治疗工程(TARGET)已经建立了各种类型癌症体细胞突变的综合目录。这些测序工程的一个主要目的就是鉴定导致癌症的驱动基因。找到癌症驱动基因,不仅能增加人类对肿瘤发生和发展的了解,更能提供一些癌症的潜在治疗靶点。一些利用多组学数据鉴定癌症驱动基因的生物信息学工具已经问世,这些工具根据他们的基本原理可以分为3类:第一类是以突变频率为基础的工具,他们把突变频率高于背景突变率的基因确定为驱动基因。这类工具的代表是MutSigCV(LawrenceMS,StojanovP,PolakP,etal.Mutationalheterogeneityincancerandthesearchfornewcancer-associatedgenes.[J].Nature,2013,499(7457):214-218.)和申请号为CN201310284338.X的专利“一种检测非小细胞肺癌驱动基因突变谱的方法及试剂盒与应用”。第二类是根据已知通路或者相互作用网络来开发的工具。此类工具的代表是DawnRank(HouJP,MaJ.DawnRank:discoveringpersonalizeddrivergenesincancer[J].GenomeMedicine,2014,6(7):56.)和申请号为CN201510111810.9的专利“一种基于生物网络的癌症驱动基因的筛选方法”。第三类是“热点”工具,“热点”是指对肽链或者蛋白质三维构象有重要影响的位置。其代表是OncodriveCLUST(TamboreroD,GonzalezperezA,LopezbigasN.OncodriveCLUST:exploitingthepositionalclusteringofsomaticmutationstoidentifycancergenes[J].Bioinformatics,2013,29(18):2238.)。然而上述生物信息学工具仍存在一些缺点,首先这些算法没有达到敏感性和特异性的良好平衡,即有些算法敏感性虽高,但是特异性过低,抑或是特异性高而敏感性低;其次这些方法对不同类型肿瘤缺乏稳健性,即对一些肿瘤类型,方法性能很好,找到许多可靠的驱动基因,但是对另一些肿瘤类型却表现出较差的性能。
技术实现思路
本专利技术旨在提供一种高稳健性算法来鉴定癌症驱动基因。本专利技术方法以机器学习和多种统计方法为基础,能在多种类型癌症数据上展现出较高的灵敏性和特异性,大大降低传统方法造成的假阳性,为后续基因功能研究和靶向药物筛选打下重要基础。本专利技术所提供的技术方案:一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法,其实现步骤如下:(1)将数据整理为标准格式:要求输入数据格式为基因组图谱工程(TCGA)通用的突变注释文件格式(MutationAnnotationFile),或者含有7列关键数据的文件,这些关键数据为:第1列是基因名称,第5列为基因所在染色体序号,第6列为基因突变序列起始位置,第9列为基因突变分类,第11列为突变基因序列对应的正常参考序列,第13列为突变基因序列,第16列为基因突变所在的样本序号;把输入数据整理为上述格式后即可用于后续流程;(2)计算背景变异率:采用经验贝叶斯方法计算基因突变的背景变异率;同义突变和非同义突变分别服从以下分布:p代表输入数据中的样本编号,g代表基因名,t代表突变类型;代表g基因上的t类型同义突变可能发生的个数,代表g基因上的t类型非同义突变可能发生的个数,和分别代表p样本、g基因上的t类型同义和非同义突变实际发生数目;βpgt代表p样本、g基因上的t类型突变发生的背景变异率,θpgt代表p样本、g基因上的t类型突变的总变异率,θpgt=βpgt+αgt,其中αgt代表g基因上的t类型突变的发生率;背景变异率根据下式计算:其中,P为样本总数;(3)统计学检验癌症驱动基因:对各个基因进行假设检验,以此判断某基因是否为驱动基因;对于待检验基因g,原假设为H0:αg1=…=αgT=0,T为突变类型总数,备择假设为检验统计量为得分检验:其中,ωt为衡量t类型突变的功能性后果的权重参数,对于训练数据中的基因,根据机器学习思想其权重参数计算公式为:对于不在训练数据中的基因,权重为训练基因权重的均值。(4)蒙特卡洛模拟统计量分布:步骤(3)中的得分检验在样本量足够大的情况下,统计量的理论分布是标准正态分布;然而由于基因突变频率非常低,某基因发生突变的样本数也就很少,导致统计量实际分布不满足标准正态分布,因此需要人工模拟统计量的分布来计算统计量的可能性;由于服从泊松分布,故可以根据以下分布人工产生突变数据:其中为模拟产生数据,为βpgt的估计值;把模拟数据代入检验统计量公式即可得到模拟分布,再用真实数据代入统计量计算真实统计量值,根据模拟分布即可得到统计显著性P值;(5)P值调整:根据Benjamini–Hochberg方法调整各个基因的显著性P值,即Padjvalue=pvalue*G/r,其中Padjvalue是调整后的P值,pvalue是原始p值,G是进行假设检验的基因总数,r是在所有基因按其p值降序排列后的序号;根据各基因调整后的P值是否超过阈值(通常为0.05)来判断该基因是否是驱动基因。进一步地,所述步骤(1)中的数据,来源包括但不限于基因组图谱工程(TCGA)。进一步地,所述步骤(1)中的数据,生成平台包括但不限于Illumina测序仪。进一步地,所述步骤(1)中的数据整理工具软件,包括但不限于R软件。进一步地,所述步骤(2)中的突变类型,包括错义突变、无义突变、翻译无法正常终止突变、剪切位点突变、转录起始位点突变和插入缺失突变。进一步地,所述步骤(2)中的样本,来源包括但不限于肺癌、宫颈癌、乳腺癌和卵巢癌。进一步地,所述步骤(5)中的显著性P值的阈值取为0.05。本专利技术提供的癌症驱动基因鉴定方法采用机器学习和多种统计学方法,考虑了多种突变类型对蛋白质功能的影响,具有高稳健性,广泛适用于各类型癌症;并且在敏感性和特异性间达到了较好的平衡,既能检测到较多数量的驱动基因,又能保持较低的假阳性。本专利技术对于寻找癌症治疗的潜在位点和抗癌药物开发具有重要意义。附图说明图1为本专利技术一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法的实现示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步详细说明,但本专利技术不受限于此。1.实验材料:实验样本数据:肺鳞状细胞癌突变数据,下载于TCGA数据库(http://tcga-data.nci.nih.gov/docs/publications/lusc_2012/);操作系统:Linux软件:R,Perl。均下载于官方网站。2.实验本文档来自技高网
...
一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法

【技术保护点】
一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法,其特征在于,包括以下步骤:(1)将数据整理为标准格式:要求输入数据格式为基因组图谱工程通用的突变注释文件格式,或者含有7列关键数据的文件,这些关键数据为:第1列是基因名称,第5列为基因所在染色体序号,第6列为基因突变序列起始位置,第9列为基因突变分类,第11列为突变基因序列对应的正常参考序列,第13列为突变基因序列,第16列为基因突变所在的样本序号;(2)计算背景变异率:采用经验贝叶斯方法计算基因突变的背景变异率;同义突变和非同义突变分别服从以下分布:

【技术特征摘要】
1.一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法,其特征在于,包括以下步骤:(1)将数据整理为标准格式:要求输入数据格式为基因组图谱工程通用的突变注释文件格式,或者含有7列关键数据的文件,这些关键数据为:第1列是基因名称,第5列为基因所在染色体序号,第6列为基因突变序列起始位置,第9列为基因突变分类,第11列为突变基因序列对应的正常参考序列,第13列为突变基因序列,第16列为基因突变所在的样本序号;(2)计算背景变异率:采用经验贝叶斯方法计算基因突变的背景变异率;同义突变和非同义突变分别服从以下分布:p代表输入数据中的样本编号,g代表基因名,t代表突变类型;代表g基因上的t类型同义突变可能发生的个数,代表g基因上的t类型非同义突变可能发生的个数,和分别代表p样本、g基因上的t类型同义和非同义突变实际发生数目;βpgt代表p样本、g基因上的t类型突变发生的背景变异率,θpgt代表p样本、g基因上的t类型突变的总变异率,θpgt=βpgt+αgt,其中αgt代表g基因上的t类型突变的发生率;背景变异率根据下式计算:其中,P为样本总数;(3)统计学检验癌症驱动基因:对各个基因进行假设检验,以此判断某基因是否为驱动基因;对于待检验基因g,原假设为H0:αg1=…=αgT=0,T为突变类型总数,备择假设为检验统计量为得分检验:...

【专利技术属性】
技术研发人员:刘鹏渊韩毅陆燕周莉媛
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1