The invention discloses a method for removing noise of the sequencing data, which comprises the following steps: S1: to filter the original RNA Seq data, the application of minimum filtration principle, the removal of the original data matrix in the numerical expression of 0 or very low; S2: standard treatment on the filtered data, remove the system deviation, different results will be adjusted according to the global value, makes the individual data between comparable; S3: correlation between variables and batch noise calculation of standardized data after interest, significant test of correlation coefficient, calculating the value of P, if P< 0.05, there is significant correlation between otherwise. No significant correlation; S4: if the two are related, rlog transform is performed on the data; if they do not, then the data were Z after Score treatment, log transform, Z Score model: the Y For the pre processed data, X data, the mean variance for u, V; S5: to determine alternative variables.
【技术实现步骤摘要】
本专利技术涉及生物信息学与第二代测序
,特别是关于不同实验室或平台干扰下引入的批次效应的去除方法,具体为一种去除测序数据噪声的方法。
技术介绍
目前已有的去除测序数据噪声算法有两种,一种是去除不需要的变量方法。对于m个样本和n组基因,基于对数线性模型,观测的测序读取计数在感兴趣的已知协变量和不需要的变量的未知因素上回归,利用数据的子集来估计不需要的变量并调整他们。另一种为替代变量分析方法。该算法结合奇异值分解和线性模型分析,通过线性模型删除生物变量引入的差异后,对残差矩阵通过奇异值分解估计特征值并确定重要的混杂变量后对其进行移除。以上两种算法的缺陷具有以下三点缺陷:(1)目前算法用于微阵列数据,不适用于第二代测序数据。(2)没有考虑模型中存在的异方差问题,数据处理的精度不准确。(3)目前算法对对计数值进行对数变换,然而对数变化后形成的小计数值会存在内在的噪声,并且对数变换会加大较小计数值之间的差异,这些低计数值显示样本之间强大的相对差异。
技术实现思路
根据现有技术存在的问题,本专利技术公开了一种去除测序数据噪声的方法。其采用如下技术方案:一种去除测序数据噪声的方法,包括以下步骤:S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;S4:若两者相关,则对数据进行r ...
【技术保护点】
一种去除测序数据噪声的方法,其特征在于,包括以下步骤:S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;S4:若两者相关,则对数据进行rlog变换;若两:若两者不相关,则先对数据进行Z‑Score处理,然后对处理后的数据进行log变换,Z‑Score的模型为:X=Y-μν]]>其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;S5:确定替代变量。
【技术特征摘要】
1.一种去除测序数据噪声的方法,其特征在于,包括以下步骤:S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;S4:若两者相关,则对数据进行rlog变换;若两:若两者不相关,则先对数据进行Z-Score处理,然后对处理后的数据进行log变换,Z-Score的模型为:X=Y-μν]]>其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;S5:确定替代变量。2.根据权利要求1所述的一种去除测序数据噪声的方法,其特征还在于:所述S5步骤包括以下步骤:S51:检测批次效应;S52:计算替代变量。3.根据权利要求2所述的一种去除测序数据噪声的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。