一种基于基因突变频率的癌症驱动基因的筛选方法技术

技术编号:15878804 阅读:56 留言:0更新日期:2017-07-25 16:48
本发明专利技术公开了一种基于基因突变频率的癌症驱动基因的筛选方法,属于癌症医学领域。该方法包含如下步骤:(1)肿瘤基因突变数据获取;(2)突变数据预处理;(3)筛选每个基因的邻近基因;(4)计算每种突变的背景突变数据;(5)根据突变分值使用假设检验筛选突变基因。本发明专利技术方法不仅利用现代高通量测序技术及DNA数据处理软件,使用经典的聚类算法和统计方法,而且与影响基因突变的生物因素相结合使癌症驱动基因的筛选更加精确,对新型抗癌药物的研发和癌症临床诊疗都具有重要意义。

Screening method for cancer driving gene based on gene mutation frequency

The invention discloses a screening method of cancer driving gene based on gene mutation frequency, belonging to the field of cancer medicine. The method includes the following steps: (1) tumor gene mutation (2) mutation data acquisition; data preprocessing; (3) the adjacent gene screening of each gene; (4) were calculated for each mutant background mutation data; (5) according to the mutation score screening gene mutation using hypothesis. Not only the use of modern high-throughput sequencing technology and DNA data processing software, the method of the invention, the clustering algorithm and using the classical statistical method, and the influence factors of gene mutation and biological combination screening makes cancer driving genes more accurately, is of great significance to the development of new anticancer drugs and clinical diagnosis and treatment of cancer.

【技术实现步骤摘要】
一种基于基因突变频率的癌症驱动基因的筛选方法
本专利技术属于癌症医学领域,涉及一种基于基因突变频率的癌症驱动基因的筛选方法。
技术介绍
癌症是由体细胞突变引起。致癌因子诱发正常细胞进行变异,细胞中某些特定的基因位点发生突变时,会极大的促进癌症细胞的产生和发展,这些特殊的基因称为驱动基因。驱动基因突变在癌症发展过程中起着关键性的作用,是决定癌症的最主要原因。在肿瘤细胞中并不是检测到的所有突变基因都是驱动基因。与驱动基因对应的是乘客基因,乘客基因突变对癌症的产生与发展的影响非常小。因此如何有效的识别癌症驱动基因仍是当前癌症研究中亟待解决的难题。癌症驱动基因的筛选对癌症靶向治疗药物的研发,癌症的预防、早期检测和诊断、分期分型以及康复治疗都有重要作用。借助高通量基因组测序技术,可以快速准确的找到癌症基因序列中碱基组成与结构的异常变异,将肿瘤中的基因突变转化成数据,使用数据处理技术筛选癌症驱动基因。已有的使用癌症突变数据筛选癌症驱动基因相关研究中,多是基于突变频率或突变功能的方法。现有的癌症驱动基因相关专利,申请号:CN201510111810.9公开了“一种基于生物网络的癌症驱动基因的筛选方法”其中使用的是构建癌症生物分子网络筛选驱动基因。此方法是通过比较正常细胞与肿瘤细胞之间蛋白质的差异筛选突变基因。但蛋白质的合成不仅与基因相关,还与离子环境,pH值等细胞环境相关,因此仅通过比较蛋白质的差异无法精确的反应基因的具体突变情况和基因表达情况。基于突变频率的方法最先用于驱动基因研究。但基因突变频率不仅与致癌因子有关,基因的表达水平、复制时间、染色体状态等基因的固有特征也能导致各基因突变频率不同。因此在筛选癌症驱动基因时需考虑这些因素。申请号:CN201310284338.X公开了“一种检测非小细胞肺癌驱动基因突变谱的方法及试剂盒与应用”其中使用的是检测突变基因频率的方法判断驱动基因。此方法仅仅依赖基因的突变率,并未考虑基因的一些固有属性同时可以影响到基因突变频率。
技术实现思路
本专利技术要解决的技术问题是提供一种基于基因突变频率的癌症驱动基因的筛选方法,使用聚类算法对影响基因突变协变量进行聚类分析,然后使用统计算法对聚类后的基因突变数据进行处理,筛选出癌症驱动基因。本专利技术的技术方案:基于基因突变频率的癌症驱动基因的筛选方法,步骤如下:(1)肿瘤基因突变数据获取:对多名患同种癌症的患者的肿瘤细胞和正常细胞的DNA进行高通量测序,对测序得到的DNA序列与标准基因hg19进行比对,得到肿瘤细胞DNA和正常细胞DNA的基因突变位点,取肿瘤细胞DNA的特有突变位点,对突变位点进行注释,得到突变的基因名,突变类型。最后将这些数据整理成数据集:突变数据,覆盖区域,协变量。表格如下:表1突变数据表1中包含的信息有每个突变位点所在对应的基因、病人编号、突变影响及突变类别。突变影响为突变对蛋白质合成影响,包含:silent、nonsilent、noncoding三种。silent:即同义突变,nonsilent:可以导致蛋白质发生改变的突变,noncoding:发生在非编码区的突变。突变类别包含7种突变类别:1.CpG发生转换。2.CpG发生颠换。3.CpG外的C:G发生转换。4.CpG外的C:G发生颠换。5.A:T发生转换。6.A:T发生颠换。7.null+indel突变,包含无义突变、插入删除突变和剪接位点发生突变。表2覆盖区域表2中包含的信息有每个突变位点的基因、突变影响、突变类别及病人编号。其中基因、突变影响、突变类别具体信息同表1。L1、L2、……是病人编号。病人编号对应的信息是病人基因里可能发生同一影响相应类别突变的所有的碱基数。表3协变量经实验验证,在自然状态下,基因的表达水平、复制时间及染色体状态等因素会影响到基因突变频率。基因的表达水平、复制时间及染色体状态的数据可从NCBI数据库中获得。(2)数据预处理:对初始肿瘤基因突变数据进行整理。将突变数据整理成三个3维矩阵。3个维度g为基因,c为突变类型,p为病人编号。矩阵统计的是每个病人、每个基因内发生每种突变影响、每种突变类型的基因突变总个数。将覆盖区域表整理成三个3维矩阵。3个维度g为基因,c为突变类型,p为病人编号。矩阵统计的是每个病人,每个基因内能发生每种突变影响、每种突变类型的碱基总个数。其中c维度在所有突变类别的基础上增加一列nc+1,统计的为所有突变类型的突变个数总和。将协变量表整理成矩阵Vv,g,其中v为协变量,g为基因。将Vv,g进行标准化得到Zv,g,即用公式(1)将各个协变量数据转化成均值为0、方差为1的数据其中ng为基因总数;i,j为选中的一个基因;Vv,i为基因i的协变量值。(3)筛选每个基因的邻近基因:在协变量差距不大情况下,基因内碱基的突变概率大致相同的基因视为该基因的邻近基因。筛选步骤如下:1)首先使用K-means算法对Vv,g进行聚类,同时使用轮廓系数法确定聚类的类别数,得到每个基因的类别,轮廓系数计算方法如下:si=(bi-ai)/max(bi,ai)(2)ai用于量化簇内凝聚度:对第i个基因gi,计算gi与其同一个簇内的所有其他元素距离的平均值;bi用于量化簇之间分离度:选取gi外的一个簇b,计算gi与b中所有点的平均距离,遍历所有其他簇,找到最近的这个平均距离,记作bi。计算所有基因g的轮廓系数,求出平均值即为当前聚类的整体轮廓系数,挑选最大的轮廓系数对应的聚类类别数K。2)然后在基因所属的类里使用假设检验算法选出每个基因的邻近基因。其中零假设为基因i为基因g的邻近基因,数据采用背景突变数据。统计背景突变的数据即发生在非编码区和非同义突变区域内的突变。计算方法如下:同一基因内,由于碱基处在同一环境下,每个碱基发生突变的概率相同,所以基因内N个碱基发生n个突变的概率分布属于二项分布。若基因i是基因g的邻近基因,即它们的突变属于同一个二项分布,则基因i和基因g的突变数据服从beta-二项分布。以此做假设检验,零假设为基因i是基因g的邻近基因,p值的大小为公式(5)中的Qi,g,在同类协变量的基因中筛选出p值大于0.05的基因作为基因g的邻近基因Zg。HC为beta-二项分布H的连加,具体的计算如下:其中α=n2+1,β=N2-n2+1。Γ为gamma函数。筛选出每个基因的邻近基因,统计基因和所有邻近基因的背景突变碱基数xg和每种突变所在区域碱基总数Xg。公式(9)(10),i∈Zg基因i是基因g的邻近基因(4)平均突变数据,计算每个突变位点的背景突变数据。统计所有样本中每个病人,每种突变类别的总突变数,根据突变频率计算每个基因、每个病人、每种突变类型对应的背景突变数据。忽略突变影响,统计每个基因、每个病人、每种突变类型的突变数据及区域碱基总数统计每种突变类别的突变数据及区域碱基总数统计所有突变位点的突变数据及区域碱基总数统计每个病人的突变数据及区域碱基总数计算每个基因、每个病人、每种突变类型对应的背景突变数据xg,c,p及背景区域碱基总数Xg,c,p:(5)筛选驱动基因:基于突变概率及突变类型设计一种突变分值,计算样本突变数据每个基因的总分值,使用假设检验算出每个基因是驱动基因的p值,算出对应的错误发现率,根据错误发现率筛选出驱本文档来自技高网
...

【技术保护点】
一种基于基因突变频率的癌症驱动基因的筛选方法,其特征在于,步骤如下:(1)肿瘤基因突变数据获取:对多名患同种癌症的患者的肿瘤细胞和正常细胞的DNA进行高通量测序,对测序得到的DNA序列与标准基因hg19进行比对,得到肿瘤细胞DNA和正常细胞DNA的基因突变位点,取肿瘤细胞DNA的特有突变位点,对突变位点进行注释,得到突变的基因名,突变类型;最后将这些数据整理成数据集:突变数据,覆盖区域,协变量,表格如下:表1 突变数据

【技术特征摘要】
1.一种基于基因突变频率的癌症驱动基因的筛选方法,其特征在于,步骤如下:(1)肿瘤基因突变数据获取:对多名患同种癌症的患者的肿瘤细胞和正常细胞的DNA进行高通量测序,对测序得到的DNA序列与标准基因hg19进行比对,得到肿瘤细胞DNA和正常细胞DNA的基因突变位点,取肿瘤细胞DNA的特有突变位点,对突变位点进行注释,得到突变的基因名,突变类型;最后将这些数据整理成数据集:突变数据,覆盖区域,协变量,表格如下:表1突变数据表1中包含的信息有每个突变位点所在对应的基因、病人编号、突变影响及突变类别;突变影响为突变对蛋白质合成影响,包含silent、nonsilent、noncoding三种,silent:即同义突变,nonsilent:可以导致蛋白质发生改变的突变,noncoding:发生在非编码区的突变;突变类别包含7种突变类别:1.CpG发生转换,2.CpG发生颠换,3.CpG外的C:G发生转换,4.CpG外的C:G发生颠换,5.A:T发生转换,6.A:T发生颠换,7.null+indel突变,包含无义突变、插入删除突变和剪接位点发生突变;表2覆盖区域表2中包含的信息有每个突变位点的基因、突变影响、突变类别及病人编号,其中基因、突变影响、突变类别具体信息同表1;L1、L2、……是病人编号,病人编号对应的信息是病人基因里可能发生同一影响相应类别突变的所有的碱基数;表3协变量基因的表达水平、复制时间及染色体状态的数据从NCBI数据库中获得;(2)数据预处理:对初始肿瘤基因突变数据进行整理;将突变数据整理成三个3维矩阵,3个维度g为基因,c为突变类型,p为病人编号;矩阵统计的是每个病人、每个基因内发生每种突变影响、每种突变类型的基因突变总个数;将覆盖区域表整理成三个3维矩阵,3个维度g为基因,c为突变类型,p为病人编号;矩阵统计的是每个病人,每个基因内能发生每种突变影响、每种突变类型的碱基总个数;其中c维度在所有突变类别的基础上增加一列nc+1,统计的为所有突变类型的突变个数总和;将协变量表整理成矩阵Vv,g,其中v为协变量,g为基因;将Vv,g进行标准化得到Zv,g,即用公式(1)将各个协变量数据转化成均值为0、方差为1的数据其中,ng为基因总数;i,j为选中的一个基因;Vv,i为基因i的协变量值;(3)筛选每个基因的邻近基因:在协变量差距不大情况下,基因内碱基的突变概率大致相同的基因视为该基因的邻近基因;筛选步骤如下:1)首先使用K-means算法对Vv,g进行聚类,同时使用轮廓系数法确定聚类的类别数,得到每个基因的类别,轮廓系数计算方法如下:si=(bi-ai)/max(bi,ai)(2)ai用于量化簇内凝聚度:对第i个基因gi,计算gi与其同一个簇内的所有其他元素距离的平均值;bi用于量化簇之间分离度:选取gi外的一个簇b,计算gi与b中所有点的平均距离,遍历所有其他簇,找到gi与其他所有簇的最近的平均距离,记作bi;计算所有基因g的轮廓系数,求出平均值即为当前聚类的整体轮廓系数,挑选最大的轮廓系数对应的聚类类别数K;2)然后在基因所属的类里使用假设检验算法选出每个基因的邻近基因,其中零假设为基因i为基因g的邻近基因,数据采用背景突变数据;统计背景突变数据即发生在非编码区和非同义突变区域内的突变,计算方法如下:同一基因内,由于碱基处在同一环境下,每个碱基发生突变的概率相同,所以基因内N个碱基发生n个突变的概率分布属于二项分布;若基因i是基因g的邻近基因,即它们的突变属于同一个二项分布,则基因i和基因g的突变数据服从beta-二项分布;以此做假设检验,零假设为基因i是基因g的邻近基因,p值为公式(5)中的Qi,g,在同类协变量的基因中筛选出p值大于0.05的基因作为基因g的邻近基因Zg;HC为beta-二项分布H的连加,具体的计算如下:其中,α=n2+1,β=N2-n2+1,Γ为gamma函数;筛选出每个基因的邻近基因,统计基因和所有邻近基因的背景突变碱基数xg和每种突变所在区域碱基总数Xg;公式(9)和(10)中,i∈Zg基因i是基因g的邻近基因;(4)平均突变数据,计算每个突变位点的背景突变数据,统计所有样本中每个病人,每种突变类别的总突变数,根据突变频率计算每个基因、每个病人、每种突变类型对应的背景突变数据;忽略突变影响,统计每个基因、每个病人、每种突变类型的突变数据及区域碱基总数统计每种突变类别的突变数据及区域碱基总数统计所有突变位点的突变数据及区域碱基总数

【专利技术属性】
技术研发人员:顾宏秦尤秦攀曹隽喆
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1