Based on DNA methylation data, a differential methylation analysis algorithm considering purity effect is presented. Its characteristics are as follows: (1) data collection and preprocessing. (2) the estimation of the purity of the tumor samples. InfiniumPurify was used to estimate the purity of the tumor samples. (3) analysis of differential methylation. The differential methylation analysis is based on the purity of tumor samples as a factor affecting the analysis of variance. A linear model is established, and the differential methylation analysis is carried out by using the statistics of parameter estimation in linear models. The invention uses machine learning and bioinformatics method as a tool for analysis of purity correction differential methylation by tumor samples and normal samples of the Illumina Infinium 450K DNA methylation data.
【技术实现步骤摘要】
基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法
本专利技术属于分子生物学领域,使用IlluminaInfinium450KDNA甲基化数据对肿瘤差异甲基化位点进行预测。
技术介绍
大量研究表明,DNA甲基化异常与包括癌症在内的很多人类基因组疾病相关。另外,肿瘤细胞中基因组层面上的改变与表观遗传层面上的改变并非独立,而是存在着某些关联。鉴于其在肿瘤发生中的重要作用,DNA甲基化的异常也被列为癌症早期诊断的标志物和药物靶点之一,相比其它的表观遗传机制,DNA甲基化异常更加稳定、检测更容易,甲基化对于确定癌症生物标记物有重要的意义。在癌症表观遗传分析当中,一个很重要的任务就是通过甲基化检测方法获取肿瘤细胞与正常细胞的甲基化水平,进而进行差异甲基化分析,获取高甲基化或者低甲基化的差异甲基化位点或者差异的甲基化区域。深入研究差异甲基化与肿瘤发生的关系,不但有助于阐述基因印迹调控的内在机制,同时也可以筛选出可用于临床肿瘤诊断的特异DNA甲基化分子标记物进而提高相关疾病的治疗水平。差异甲基化分析的目的是检测不同条件下具有甲基化差异的CpG位点或者区域。比如说,通过比对肿瘤样本和正常样本可以获取癌症相关甲基化(cDM)位点或区域;通过比对不同的癌症类型可以获取组织特异的甲基化(tDM)位点;在单个细胞中可以获取等位基因特异性的甲基化位点。早期出现的差异甲基化分析方法多借助亚硫酸盐测序数据WGBS或者RRBS进行分析,还有一些方法借助beta-binomial分布进行差异甲基化分析。InfiniumHumanMethylation450KBeadChip数据与WGBS ...
【技术保护点】
基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法,其特征在于,按步骤包括如下:(1)数据的搜集与预处理。(2)肿瘤样本纯度估计。使用InfiniumPurify估计肿瘤样本纯度。(3)差异甲基化分析。所述的差异甲基化分析是把肿瘤样本纯度作为影响差异分析的因素,建立线性模型,利用线性模型中参数估计的统计量开展差异甲基化分析。
【技术特征摘要】
1.基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法,其特征在于,按步骤包括如下:(1)数据的搜集与预处理。(2)肿瘤样本纯度估计。使用InfiniumPurify估计肿瘤样本纯度。(3)差异甲基化分析。所述的差异甲基化分析是把肿瘤样本纯度作为影响差异分析的因素,建立线性模型,利用线性模型中参数估计的统计量开展差异甲基化分析。2.如权利要求1所述的基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法,其特征在于,所述步骤(3),理论依据为:对于CpG位点i,假设正常细胞的甲基化水平经过反正弦转换后的值为Xi,并且假定Xi服从均值为mi,方差为的正态分布,即假设纯的癌症细胞在这个位点转换后的甲基化水平值为Yi,且Yi=Xi+δi。其中δi是一个随机变量,表示纯癌症细胞和正常细胞在这个位点上的甲基化的差异,这里我们假设给定一种癌症类型的一系列正常和肿瘤样本的Xi和Yi值,差异甲基化位点分析的问题就可以转化为如下的假设检验为题:H0:μi=0。由于纯癌症样本的甲基化水平Yi是未知的,我们实际观察的数据是“癌症-正常样本”混合的数据Yi′。假设估计得到的肿瘤样本s的癌症细胞纯度为λs,根据线性假设,有Y′is=(1-λs)Xis+λsYis=(1-λs)Xis+λs(Xis+δis)=Xis+λsδis.因此Y′is也服从正态分布,其均值和方差分别为mi+λsμi和即由于受肿瘤纯度λs的影响,对于正常样本和肿瘤样本甲基化水平Xis及Y′is的传统差异性分析方法并不等价于检验H0:μi=0。将所有正常和肿瘤样本在这个位点的甲基化水平表示为如下向量其中前n0...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。