一种去除测序数据噪声的方法技术

技术编号:15276223 阅读:87 留言:0更新日期:2017-05-04 20:10
本发明专利技术公开了一种去除测序数据噪声的方法,包括以下步骤:S1:对原始RNA‑Seq数据进行过滤,应用最小过滤原则,去除原始数据矩阵中的数值为0或表达量极低的行;S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;S3:计算标准化数据后感兴趣的变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;S4:若两者相关,则对数据进行rlog变换;若两者不相关,则先对数据进行Z‑Score处理后,再log变换,Z‑Score的模型为:其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;S5:确定替代变量。

Method for removing noise of sequencing data

The invention discloses a method for removing noise of the sequencing data, which comprises the following steps: S1: to filter the original RNA Seq data, the application of minimum filtration principle, the removal of the original data matrix in the numerical expression of 0 or very low; S2: standard treatment on the filtered data, remove the system deviation, different results will be adjusted according to the global value, makes the individual data between comparable; S3: correlation between variables and batch noise calculation of standardized data after interest, significant test of correlation coefficient, calculating the value of P, if P< 0.05, there is significant correlation between otherwise. No significant correlation; S4: if the two are related, rlog transform is performed on the data; if they do not, then the data were Z after Score treatment, log transform, Z Score model: the Y For the pre processed data, X data, the mean variance for u, V; S5: to determine alternative variables.

【技术实现步骤摘要】

本专利技术涉及生物信息学与第二代测序
,特别是关于不同实验室或平台干扰下引入的批次效应的去除方法,具体为一种去除测序数据噪声的方法
技术介绍
目前已有的去除测序数据噪声算法有两种,一种是去除不需要的变量方法。对于m个样本和n组基因,基于对数线性模型,观测的测序读取计数在感兴趣的已知协变量和不需要的变量的未知因素上回归,利用数据的子集来估计不需要的变量并调整他们。另一种为替代变量分析方法。该算法结合奇异值分解和线性模型分析,通过线性模型删除生物变量引入的差异后,对残差矩阵通过奇异值分解估计特征值并确定重要的混杂变量后对其进行移除。以上两种算法的缺陷具有以下三点缺陷:(1)目前算法用于微阵列数据,不适用于第二代测序数据。(2)没有考虑模型中存在的异方差问题,数据处理的精度不准确。(3)目前算法对对计数值进行对数变换,然而对数变化后形成的小计数值会存在内在的噪声,并且对数变换会加大较小计数值之间的差异,这些低计数值显示样本之间强大的相对差异。
技术实现思路
根据现有技术存在的问题,本专利技术公开了一种去除测序数据噪声的方法。其采用如下技术方案:一种去除测序数据噪声的方法,包括以下步骤:S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;S4:若两者相关,则对数据进行rlog变换;若两:若两者不相关,则先对数据进行Z-Score处理,然后对处理后的数据进行log变换,Z-Score的模型为:其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;S5:确定替代变量。进一步的,所述S5步骤包括以下步骤:S51:检测批次效应;S52:计算替代变量。进一步的,所述S51步骤包括以下步骤:①通过拟合模型xij=μi+biyj+eij来估计和并通过加权最小二乘法计算残差形成m×n的残差矩阵R;②计算残差矩阵的奇异值分解,即R=UDVT,其中U和V是A的特征向量,D表示A的特征值;③使dl为第l个特征值,其是D的第l个对角元素,l=1,2,...,n,如果df是模型拟合的自由度,然后通过构造最后的df特征值正好为零,将其删除;对于特征基因k=1,2,...,n-df设置观察到的统计量为:④通过置换R的每一行以形成矩阵R*;⑤拟合模型并计算残差来形成m×n的空矩阵模型⑥计算R0矩阵的奇异值分解⑦对于R0中的特征基因k⑧迭代4-7步骤共B次,得到空统计b=1,2,...,B和k=1,2,...,n-df;⑨计算特征基因k的p值:⑩对于用户选择的显著性水平0≤α≤1,如果pk≤α,则特征基因k为显著性特征;否则,这些特征基因不显著。进一步的,所述S52步骤包括以下步骤:①通过拟合模型xij=μi+biyj+eij来估计和并通过加权最小二乘法计算残差形成m×n的残差矩阵R;②计算残差矩阵的奇异值分解R=UDVT,令ek=(ek1,.....ekn)T是特征向量V的第k列,表示残差特征基因,并且代表与主变量导致的信号无关的正交残差信号;设置为算法所确定的显著特征基因数;③在xi(i=1,2,...m)上回归ek并计算p值来检测残差特征基因和每个基因表达之间的关联,p值测量残差特征基因ek和基因i的表达之间关联的强度;④令π0是与ek不相关的表达基因的比例,估计并估计与残差特征基因相关的基因的数量为⑤形成的简化矩阵为与残差特征基因k相关的基因数量的估计,计算Xr的特征基因,并用表示,j=1,...,n;⑥令即j*是使得ek和之间的相关性达到最大值所对应的变量,并设置将替代变量的估计设置为与相应的残差特征基因最相关的简化矩阵的特征基因;⑦在后续分析中,应用模型本专利技术具有以下有益效果:(1)本专利技术的一种去除测序数据噪声的方法,对原始第二代测序数据进行标准化处理,降低了数据中的技术噪声;(2)本专利技术的一种去除测序数据噪声的方法,当组变量和批次相关时,使用正则对数变换后更稳定,有助于多变量可视化和排序,效果更好;(3)本专利技术的一种去除测序数据噪声的方法,当组变量和批次不相关时,用Z-Score处理后,提高了算法的精度;(4)本专利技术的一种去除测序数据噪声的方法,利用带权重的最小二乘法求残差矩阵,解决了模型中存在的异方差问题。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;图1为本专利技术所述去除测序数据噪声的方法逻辑结构示意图;图2为本专利技术所述去除测序数据噪声的方法步骤S5逻辑结构示意图;图3为组变量和批次效应不相关数据差异表达结果的比较;图4为组变量和批次效应相关数据差异表达结果的比较。具体实施方式为使本专利技术的技术方案和优点更加清楚,下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚完整的描述。实施例1如图1所示,一种去除测序数据噪声的方法,包括以下步骤:S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;S4:若两者相关,则对数据进行rlog变换;若两:若两者不相关,则先对数据进行Z-Score处理,然后对处理后的数据进行log变换,Z-Score的模型为:其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;S5:确定替代变量。所述S1步骤中,由于计数数据矩阵中许多行仅包含0或者表达量极低,去除那些没有含有或仅含有很少信息的行,能够降低对象的大小,并增加处理的速度。所述rlog变换为正则对数变换,所述log变换为对数变换,所述Z-Score处理为根据数据的均值和标准差进行归一化,经过处理的数据符合正态分布。如图2所示,进一步的,所述S5步骤包括以下步骤:S51:检测批次效应;S52:计算替代变量。进一步的,所述S51步骤包括以下步骤:①通过拟合模型xij=μi+biyj+eij来估计和并通过加权最小二乘法计算残差形成m×n的残差矩阵R;②计算残差矩阵的奇异值分解,即R=UDVT,其中U和V是A的特征向量,D表示A的特征值;③使dl为第l个特征值,其是D的第l个对角元素,l=1,2,...,n,如果df是模型拟合的自由度,然后通过构造最后的df特征值正好为零,将其删除;对于特征基因k=1,2,...,n-df设置观察到的统计量为:④通过置换R的每一行以形成矩阵R*;⑤拟合模型并计算残差来形成m×n的空矩阵模型⑥计算R0矩阵的奇异值分解⑦对于R0中的特征基因k⑧迭代4-7步骤共B次,得到空统计b=1,2,...本文档来自技高网...
一种去除测序数据噪声的方法

【技术保护点】
一种去除测序数据噪声的方法,其特征在于,包括以下步骤:S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;S4:若两者相关,则对数据进行rlog变换;若两:若两者不相关,则先对数据进行Z‑Score处理,然后对处理后的数据进行log变换,Z‑Score的模型为:X=Y-μν]]>其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;S5:确定替代变量。

【技术特征摘要】
1.一种去除测序数据噪声的方法,其特征在于,包括以下步骤:S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;S4:若两者相关,则对数据进行rlog变换;若两:若两者不相关,则先对数据进行Z-Score处理,然后对处理后的数据进行log变换,Z-Score的模型为:X=Y-μν]]>其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;S5:确定替代变量。2.根据权利要求1所述的一种去除测序数据噪声的方法,其特征还在于:所述S5步骤包括以下步骤:S51:检测批次效应;S52:计算替代变量。3.根据权利要求2所述的一种去除测序数据噪声的...

【专利技术属性】
技术研发人员:王演张宁
申请(专利权)人:大连海事大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1