当前位置: 首页 > 专利查询>同济大学专利>正文

基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法制造技术

技术编号:16756154 阅读:28 留言:0更新日期:2017-12-09 02:24
基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法,其特征在于,按步骤包括如下:(1)数据的搜集与预处理。(2)肿瘤样本纯度估计。使用InfiniumPurify估计肿瘤样本纯度。(3)差异甲基化分析。所述的差异甲基化分析是把肿瘤样本纯度作为影响差异分析的因素,建立线性模型,利用线性模型中参数估计的统计量开展差异甲基化分析。本发明专利技术以机器学习和生物信息学方法为工具,通过肿瘤样本和正常样本的Illumina Infinium 450K DNA甲基化数据进行纯度矫正的差异甲基化分析。

Differential methylation analysis algorithm based on DNA methylation data considering purity effect

Based on DNA methylation data, a differential methylation analysis algorithm considering purity effect is presented. Its characteristics are as follows: (1) data collection and preprocessing. (2) the estimation of the purity of the tumor samples. InfiniumPurify was used to estimate the purity of the tumor samples. (3) analysis of differential methylation. The differential methylation analysis is based on the purity of tumor samples as a factor affecting the analysis of variance. A linear model is established, and the differential methylation analysis is carried out by using the statistics of parameter estimation in linear models. The invention uses machine learning and bioinformatics method as a tool for analysis of purity correction differential methylation by tumor samples and normal samples of the Illumina Infinium 450K DNA methylation data.

【技术实现步骤摘要】
基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法
本专利技术属于分子生物学领域,使用IlluminaInfinium450KDNA甲基化数据对肿瘤差异甲基化位点进行预测。
技术介绍
大量研究表明,DNA甲基化异常与包括癌症在内的很多人类基因组疾病相关。另外,肿瘤细胞中基因组层面上的改变与表观遗传层面上的改变并非独立,而是存在着某些关联。鉴于其在肿瘤发生中的重要作用,DNA甲基化的异常也被列为癌症早期诊断的标志物和药物靶点之一,相比其它的表观遗传机制,DNA甲基化异常更加稳定、检测更容易,甲基化对于确定癌症生物标记物有重要的意义。在癌症表观遗传分析当中,一个很重要的任务就是通过甲基化检测方法获取肿瘤细胞与正常细胞的甲基化水平,进而进行差异甲基化分析,获取高甲基化或者低甲基化的差异甲基化位点或者差异的甲基化区域。深入研究差异甲基化与肿瘤发生的关系,不但有助于阐述基因印迹调控的内在机制,同时也可以筛选出可用于临床肿瘤诊断的特异DNA甲基化分子标记物进而提高相关疾病的治疗水平。差异甲基化分析的目的是检测不同条件下具有甲基化差异的CpG位点或者区域。比如说,通过比对肿瘤样本和正常样本可以获取癌症相关甲基化(cDM)位点或区域;通过比对不同的癌症类型可以获取组织特异的甲基化(tDM)位点;在单个细胞中可以获取等位基因特异性的甲基化位点。早期出现的差异甲基化分析方法多借助亚硫酸盐测序数据WGBS或者RRBS进行分析,还有一些方法借助beta-binomial分布进行差异甲基化分析。InfiniumHumanMethylation450KBeadChip数据与WGBS和RRBS数据相比,获取更便宜、使用更为广泛,现已广泛应用于差异甲基化分析。大多数癌症细胞和正常细胞甲基化状态是相同的(要么甲基化要么没有发生甲基化),DNA甲基化芯片数据一个非常显著的特征是大多数的位点的甲基化值在0、1附近富集,现有的基于甲基化芯片数据的方法都是对单个位点进行统计检验,非参数的假设检验如Wilcoxonranksumtest等对此都具有很好的检测效果。我们使用InfiniumPurify进行肿瘤样本纯度估计,把肿瘤样本纯度做为一个重要因素纳入到差异甲基化分析当中,有效避免了由于肿瘤样本“不纯”而导致的差异甲基化分析的偏差。
技术实现思路
本专利技术以机器学习和生物信息学方法为工具,通过肿瘤样本和正常样本的IlluminaInfinium450KDNA甲基化数据进行纯度矫正的差异甲基化分析。本专利技术需要保护的技术方案:基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法,其特征在于,按步骤包括如下:(1)数据的搜集与预处理。(2)肿瘤样本纯度估计。(属于常规技术)使用InfiniumPurify估计肿瘤样本纯度。(属于现有技术)(3)差异甲基化分析。所述的差异甲基化分析是把肿瘤样本纯度作为影响差异分析的因素,建立线性模型,利用线性模型中参数估计的统计量开展差异甲基化分析。(本专利技术技术方案的关键步骤)与现有技术相比,本专利技术具有以下优点及有益效果:在对肿瘤细胞与正常细胞进行差异分析的过程中,首先需要获取肿瘤样本和正常样本。通常,肿瘤样本和正常样本都是通过临床手术获得,在切除肿瘤组织的同时再切除一部分癌旁正常组织,然后检测肿瘤样本和正常样本的差异。由于手术分辨率的问题,切除的肿瘤组织中或多或少地混有一部分正常细胞,比如TCGA中大多数癌症类型,肿瘤样本正常细胞的含量一般都在30%到70%之间。绝大多数差异甲基化分析方法要求输入纯的肿瘤细胞和正常细胞的甲基化谱,然而纯的肿瘤细胞从临床实验中很难获取,如果我们不加以处理,直接把“不纯”的肿瘤样本跟正常样本的甲基化谱相比较,会使肿瘤样本集合甲基化均值的估计产生偏差,同时引起肿瘤样本集合组内方差扩大,从而减弱方法的检测能力,势必会导致分析结果的偏差甚至错误发现的产生。把肿瘤纯度作为影响差异甲基化分析的重要因素并入差异甲基化分析体系具有非常重要的意义,现有的方法还没有完全实现对肿瘤样本的“矫正”。附图说明图1本专利技术方法流程示意图。具体实施方式本专利技术的对肿瘤样本进行纯度矫正的差异甲基化分析算法,利用肿瘤样本和正常样本甲基化水平IlluminaHumanMethylation450KBeadChip数据进行差异甲基化分析获取差异甲基化位点。本专利技术中,使用InfiniumPurify估计肿瘤样本的纯度,然后把肿瘤样本纯度作为影响差异甲基化分析的因素,建立统计模型进行差异甲基化分析。此方法相比于直接利用肿瘤样本和正常样本比对的检测方法的优势在于把瘤样本纯度纳入到差异表达分析中,有效避免了由于肿瘤样本“不纯”而导致的差异甲基化分析所出现的偏差,更具合理性。以下通过实施例和附图做进一步介绍。本专利技术建立统计模型进行差异甲基化分析方法,按步骤介绍如下:(1)数据的搜集与预处理。搜集并下载高通量药物反应数据库TCGA中大多数癌症类型的IlluminaInfinium450KDNA甲基化数据或者手术获取肿瘤样本和正常样本进行重亚硫酸盐预处理后利用InfiniumHumanMethylation450KBeadChip获取DNA甲基化水平。(2)肿瘤样本纯度估计。使用InfiniumPurify估计肿瘤样本纯度。InfiniumPurify是一个针对IlluminaInfinium450KDNA甲基化数据开发的肿瘤纯度估计算法,可以从https://bitbucket.org/zhengxiaoqi/infiniumpurify免费获取,利用它对肿瘤样本纯度进行估计。(3)差异甲基化分析。所述的差异甲基化分析把肿瘤样本纯度作为影响差异分析的因素,建立线性模型,利用线性模型中参数估计的统计量开展差异甲基化分析。把估计的肿瘤样本纯度做为影响因素,结合肿瘤样本和正常样本IlluminaInfinium450K甲基化水平建立线性模型进行差异甲基化分析。具体理论与实施过程如下:对于CpG位点i,假设正常细胞的甲基化水平经过反正弦转换后的值为Xi,并且假定Xi服从均值为mi,方差为的正态分布,即假设纯的癌症细胞在这个位点转换后的甲基化水平值为Yi,且Yi=Xi+δi。其中δi是一个随机变量,表示纯癌症细胞和正常细胞在这个位点上的甲基化的差异,这里我们假设给定一种癌症类型的一系列正常和肿瘤样本的Xi和Yi值,差异甲基化位点分析的问题就可以转化为如下的假设检验为题:H0:μi=0.但事实上,纯癌症样本的甲基化水平Yi是未知的,我们实际观察的数据是“癌症-正常样本”混合的数据Yi′。假设估计得到的肿瘤样本s的癌症细胞纯度为λs,根据线性假设,我们有Y′is=(1-λs)Xis+λsYis=(1-λs)Xis+λs(Xis+δis)=Xis+λsδis.因此Y′is也服从正态分布,其均值和方差分别为mi+λsμi和即通常情况下,由于受肿瘤纯度λs的影响,对于正常样本和肿瘤样本甲基化水平Xis及Y′is的差异性分析并不等价于检验H0:μi=0.为了解决上述问题,我们提出了一个简单线性模型和广义最小二乘方法,利用Xis和Y′is以及肿瘤样本的纯度λs作为模型输入来检验肿瘤和正常样本在给定位点的差异性,即检验μi=0.第一步,对于CpG位点i,构本文档来自技高网
...
基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法

【技术保护点】
基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法,其特征在于,按步骤包括如下:(1)数据的搜集与预处理。(2)肿瘤样本纯度估计。使用InfiniumPurify估计肿瘤样本纯度。(3)差异甲基化分析。所述的差异甲基化分析是把肿瘤样本纯度作为影响差异分析的因素,建立线性模型,利用线性模型中参数估计的统计量开展差异甲基化分析。

【技术特征摘要】
1.基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法,其特征在于,按步骤包括如下:(1)数据的搜集与预处理。(2)肿瘤样本纯度估计。使用InfiniumPurify估计肿瘤样本纯度。(3)差异甲基化分析。所述的差异甲基化分析是把肿瘤样本纯度作为影响差异分析的因素,建立线性模型,利用线性模型中参数估计的统计量开展差异甲基化分析。2.如权利要求1所述的基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法,其特征在于,所述步骤(3),理论依据为:对于CpG位点i,假设正常细胞的甲基化水平经过反正弦转换后的值为Xi,并且假定Xi服从均值为mi,方差为的正态分布,即假设纯的癌症细胞在这个位点转换后的甲基化水平值为Yi,且Yi=Xi+δi。其中δi是一个随机变量,表示纯癌症细胞和正常细胞在这个位点上的甲基化的差异,这里我们假设给定一种癌症类型的一系列正常和肿瘤样本的Xi和Yi值,差异甲基化位点分析的问题就可以转化为如下的假设检验为题:H0:μi=0。由于纯癌症样本的甲基化水平Yi是未知的,我们实际观察的数据是“癌症-正常样本”混合的数据Yi′。假设估计得到的肿瘤样本s的癌症细胞纯度为λs,根据线性假设,有Y′is=(1-λs)Xis+λsYis=(1-λs)Xis+λs(Xis+δis)=Xis+λsδis.因此Y′is也服从正态分布,其均值和方差分别为mi+λsμi和即由于受肿瘤纯度λs的影响,对于正常样本和肿瘤样本甲基化水平Xis及Y′is的传统差异性分析方法并不等价于检验H0:μi=0。将所有正常和肿瘤样本在这个位点的甲基化水平表示为如下向量其中前n0...

【专利技术属性】
技术研发人员:张乃千殷俊锋
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1