一种基于PCA的单细胞异常值处理方法及装置制造方法及图纸

技术编号:38466811 阅读:15 留言:0更新日期:2023-08-11 14:44
本发明专利技术提供一种基于PCA的单细胞异常值处理方法及装置,采用了传统的PCA降维方法,在其过程中加入异常值判定的流程并过滤掉异常点,从而解决传统方法的异常值过多的问题。协方差矩阵和特征向量的计算方式能够识别数据中的主要特征,并将它们投影到低维空间中,使得投影后的数据更易于可视化和解释。通过PCA进行异常点检测,可以识别数据集中的异常值,并且在不丢失数据重要信息的情况下,可以提高数据集的质量和准确性。最后,PCA异常点检测方法是一种无监督的方法,可以自动检测数据集中的异常点,不需要事先知道异常点的存在,具有较强的适应性和普适性。的适应性和普适性。的适应性和普适性。

【技术实现步骤摘要】
一种基于PCA的单细胞异常值处理方法及装置


[0001]本专利技术涉及数据挖掘
,特别是涉及一种基于PCA的单细胞异常值处理方法及装置。

技术介绍

[0002]近些年来单细胞RNA测序(scRNA

seq)技术发展迅速,单细胞转录组学的研究发生了巨大改变,一方面,细胞是一个独立的单位,在单细胞层面的深入研究可以帮助人们理解生命的变化规律和发育趋势。另一方面,现在的单细胞RNA测序(scRNA

seq)数据规模越来越大,这使得研究人员对于单细胞RNA测序(scRNA

seq)数据的分析更加困难,数据集的维度更大,就需要更加准确的方法来准确提取数据中的有效信息。
[0003]当处理单细胞RNA测序数据时,异常值处理是一个至关重要的环节,可以有效地提高单细胞数据的质量和下游分析的可靠性。在单细胞数据中,由于存在诸如扩增偏差、细胞周期效应、基因表达异质性、噪声等因素,可能会出现异常细胞或基因,如表达异常或数量异常的细胞,或者表达异常的基因。因此,识别和处理异常值对于正确地理解数据和得出准确的分析结果至关重要。
[0004]针对单细胞异常值处理的研究,目前已经提出了许多有效的方法。在识别异常细胞方面,常用的方法包括基于降维算法的方法和基于聚类或异常检测算法的方法。例如,PCA、t

SNE和UMAP等降维算法可以在保留数据拓扑结构的同时,有效地识别出表达异常或者细胞数量异常的细胞。而LOF、DBSCAN和Isolation Forest等聚类或异常检测算法可以识别出表达异常的细胞。对于异常基因的识别,一些新的方法被提出来,如SAVER(Single

cell Analysis Via Expression Recovery)算法和scImpute等方法,可以有效地恢复缺失值,减少噪声的影响。对于识别出的异常细胞或基因,常用的处理方法包括移除、替换或调整。然而,对于异常值的处理需要根据具体情况进行权衡,以避免对数据完整性和可靠性的影响。

技术实现思路

[0005]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于PCA的单细胞异常值处理方法及装置,用于解决现有技术中异常值检测不准确的问题。
[0006]为实现上述目的及其他相关目的,本专利技术提供一种基于PCA的单细胞异常值处理方法,特征如下:
[0007]步骤110、获取scRNA

seq数据集作为目标数据集,对所述目标数据集进行数据预处理以去除其中的无效信息,得到第一数据集即基因表达矩阵;
[0008]步骤120、对所述第一数据集进行线性函数归一化,因为PCA对于初始变量的方差非常敏感,如果初始变量的范围之间存在较大差异,则会造成很大变差,使用标准化可以将数据转换为可比较的尺度,得到第二数据集;
[0009]步骤130、基于所述第二数据集计算协方差矩阵,以此识别数据之间的相关性,计
算协方差矩阵的特征向量和特征值以识别主成分,将计算好的特征值的顺序对特征向量进行排序,从高到低,可以按照重要程度顺序获得主成分,从而得到第三数据集。
[0010]步骤140、对所述第三数据集计算每个主成分之间的距离矩阵,这里使用欧式距离来计算,得到距离矩阵;
[0011]步骤150、将所述第三数据集以及距离矩阵判断异常点,计算距离矩阵的均值,将每一个点与均值比较,大于10倍均值的点置为异常点,否则为无异常点。
[0012]步骤160、将所判定为异常点去除,沿主成分轴重铸数据。
[0013]进一步,具体的,所述所述步骤110中的数据预处理的过程包括以下,
[0014]剔除单一值列,单一值列的阈值设置为1,即若某一列的值都一样,剔除该列;去掉过多的0值特征列,零值比率设置为0.4,某一列的零值超过40%判断其为无效特征,剔除该列;
[0015]进行分箱处理,其中箱数为经验值,将所有目标数据集数据按照属性值分为20个子区间即框,同一框中的属性值与样本中的属性值相同,用信息熵计算每个目标数据集数据的信息熵,p(x)为信息熵,当信息熵值小于0.3时,将该列数据移除,信息熵公式如下,
[0016]H(X)=∑
x∈X
p(x)
·
logp(x)
[0017]对异常数据进行平滑处理,单数据在目标数据集数据中的平均表达量计算为μ,单数据在目标数据集数据中的方差表达量计算为σ,如果单数据的表达水平超出[μ

4σ,μ+4σ]的范围,则将其平滑为该区间的边界值。
[0018]进一步,具体的,所述步骤120中的过程包括以下,
[0019]用最大最小值归一化,单数据的表达水平归一化为[0,1],x
min
和x
max
分别为某行的最小值和最大值,则归一化公式为,
[0020][0021]进一步,具体的,所述步骤130包括以下过程,
[0022]计算协方差矩阵,它可以帮助我们识别原始数据中的相关性。协方差矩阵是一个对称矩阵,其对角线上的元素表示每个特征的方差,而其余元素表示特征之间的协方差。协方差矩阵越大,意味着数据之间的相关性越强,而协方差矩阵越小,则意味着数据之间的相关性越弱。通过计算协方差矩阵,我们可以发现哪些特征之间存在较强的相关性,从而得到数据的主要方向。协方差矩阵计算公式如下:
[0023][0024]在PCA中,我们需要对协方差矩阵进行特征值分解,得到其特征向量和特征值。特征向量表示了协方差矩阵的主要方向,即数据中最大方差的方向,而特征值则表示了在这些方向上的方差大小。通过选择前k个特征向量对应的特征值较大的部分,我们可以构成一个新的特征向量矩阵,将原始数据乘以该矩阵,即可将数据映射到新的低维空间。
[0025]进一步,具体的,所述步骤140包括以下过程,
[0026]计算每个向量之间的距离矩阵。这个距离矩阵使用欧式距离来计算,用于确定不同的主要方向。欧式距离的计算公式如下:
[0027]d(x,y)=sqrt(sum((x
i

y
i
)2))
[0028]进一步,具体的,所述步骤150中包括,
[0029]进行异常点的判定,异常点往往会对结果产生影响,因此需要对其进行检测和处理。基于距离矩阵来判断异常点。先使用PCA算法计算出数据集的距离矩阵,然后计算距离矩阵的均值。接着,对于每一个数据点,计算其与距离矩阵均值之间的距离,如果该距离大于10倍均值,那么该点就被判断为异常点。反之,如果该距离小于等于10倍均值,该点就被判断为无异常点。这个过程能够帮助我们检测出数据中的异常点,并对其进行处理,以提高数据分析的准确性和可靠性。
[0030]进一步,具体的,所述步骤160中包括,
[0031]异常点被检测出来后,我们需要将其去除以消除其对数据分析的影响。然后,我们将数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于PCA的单细胞异常值处理方法,其特征在于,至少包括:步骤110、获取scRNA

seq数据集作为目标数据集,对所述目标数据集进行数据预处理以去除其中的无效信息,得到第一数据集即基因表达矩阵;步骤120、对所述第一数据集进行线性函数归一化,因为PCA对于初始变量的方差非常敏感,如果初始变量的范围之间存在较大差异,则会造成很大变差,使用标准化可以将数据转换为可比较的尺度,得到第二数据集;步骤130、基于所述第二数据集计算协方差矩阵,以此识别数据之间的相关性,计算协方差矩阵的特征向量和特征值以识别主成分,将计算好的特征值的顺序对特征向量进行排序,从高到低,可以按照重要程度顺序获得主成分,从而得到第三数据集。步骤140、对所述第三数据集计算每个主成分之间的距离矩阵,这里使用欧式距离来计算,得到距离矩阵;步骤150、将所述第三数据集以及距离矩阵判断异常点,计算距离矩阵的均值,将每一个点与均值比较,大于10倍均值的点置为异常点,否则为无异常点。步骤160、将所判定为异常点去除,沿主成分轴重铸数据作为输出。2.根据权利要求1所述的基于PCA的单细胞异常值处理方法,其特征在于:所述步骤110中的数据预处理的过程包括:剔除单一值列,单一值列的阈值设置为1,即若某一列的值都一样,剔除该列;去掉过多的0值特征列,零值比率设置为0.4,某一列的零值超过40%判断其为无效特征,剔除该列;进行分箱处理,其中箱数为经验值,将所有目标数据集数据按照属性值分为20个子区间即框,同一框中的属性值与样本中的属性值相同,用信息熵计算每个目标数据集数据的信息熵,p(x)为信息熵,当信息熵值小于0.3时,将该列数据移除,信息熵公式如下,H(X)=∑
x∈X
p(x)
·
logp(x);对异常数据进行平滑处理,单数据在目标数据集数据中的平均表达量计算为μ,单数据在目标数据集数据中的方差表达量计算为σ,如果单数据的表达水平超出[μ

4σ,μ+4σ]的范围,则将其平滑为该区间的边界值。3.根据权利要求1所述的基于PCA的单细胞异常值处理方法,其特征在于:所述步骤120中的过程包括以下:用最大最小值归一化,单数据的表达水平归一化为[0,1],x
min
和x
max
分别为某行的最小值和最大值,则归一化公式为,4.根据权利要求1所述...

【专利技术属性】
技术研发人员:赵利权朱晓姝蒙爽
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1