一种基于PCA的单细胞异常值处理方法及装置制造方法及图纸

技术编号：38466811 阅读：15 留言：0更新日期：2023-08-11 14:44

本发明专利技术提供一种基于PCA的单细胞异常值处理方法及装置，采用了传统的PCA降维方法，在其过程中加入异常值判定的流程并过滤掉异常点，从而解决传统方法的异常值过多的问题。协方差矩阵和特征向量的计算方式能够识别数据中的主要特征，并将它们投影到低维空间中，使得投影后的数据更易于可视化和解释。通过PCA进行异常点检测，可以识别数据集中的异常值，并且在不丢失数据重要信息的情况下，可以提高数据集的质量和准确性。最后，PCA异常点检测方法是一种无监督的方法，可以自动检测数据集中的异常点，不需要事先知道异常点的存在，具有较强的适应性和普适性。的适应性和普适性。的适应性和普适性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于PCA的单细胞异常值处理方法及装置

[0001]本专利技术涉及数据挖掘
，特别是涉及一种基于PCA的单细胞异常值处理方法及装置。

技术介绍

[0002]近些年来单细胞RNA测序(scRNA
‑
seq)技术发展迅速，单细胞转录组学的研究发生了巨大改变，一方面，细胞是一个独立的单位，在单细胞层面的深入研究可以帮助人们理解生命的变化规律和发育趋势。另一方面，现在的单细胞RNA测序(scRNA
‑
seq)数据规模越来越大，这使得研究人员对于单细胞RNA测序(scRNA
‑
seq)数据的分析更加困难，数据集的维度更大，就需要更加准确的方法来准确提取数据中的有效信息。
[0003]当处理单细胞RNA测序数据时，异常值处理是一个至关重要的环节，可以有效地提高单细胞数据的质量和下游分析的可靠性。在单细胞数据中，由于存在诸如扩增偏差、细胞周期效应、基因表达异质性、噪声等因素，可能会出现异常细胞或基因，如表达异常或数量异常的细胞，或者表达异常的基因。因此，识别和处理异常值对于正确地理解数据和得出准确的分析结果至关重要。
[0004]针对单细胞异常值处理的研究，目前已经提出了许多有效的方法。在识别异常细胞方面，常用的方法包括基于降维算法的方法和基于聚类或异常检测算法的方法。例如，PCA、t
‑
SNE和UMAP等降维算法可以在保留数据拓扑结构的同时，有效地识别出表达异常或者细胞数量异常的细胞。而LOF、DBSCAN和Isolation Fo...

【技术保护点】

【技术特征摘要】
1.一种基于PCA的单细胞异常值处理方法，其特征在于，至少包括：步骤110、获取scRNA
‑
seq数据集作为目标数据集，对所述目标数据集进行数据预处理以去除其中的无效信息，得到第一数据集即基因表达矩阵；步骤120、对所述第一数据集进行线性函数归一化，因为PCA对于初始变量的方差非常敏感，如果初始变量的范围之间存在较大差异，则会造成很大变差，使用标准化可以将数据转换为可比较的尺度，得到第二数据集；步骤130、基于所述第二数据集计算协方差矩阵，以此识别数据之间的相关性，计算协方差矩阵的特征向量和特征值以识别主成分，将计算好的特征值的顺序对特征向量进行排序，从高到低，可以按照重要程度顺序获得主成分，从而得到第三数据集。步骤140、对所述第三数据集计算每个主成分之间的距离矩阵，这里使用欧式距离来计算，得到距离矩阵；步骤150、将所述第三数据集以及距离矩阵判断异常点，计算距离矩阵的均值，将每一个点与均值比较，大于10倍均值的点置为异常点，否则为无异常点。步骤160、将所判定为异常点去除，沿主成分轴重铸数据作为输出。2.根据权利要求1所述的基于PCA的单细胞异常值处理方法，其特征在于：所述步骤110中的数据预处理的过程包括：剔除单一值列，单一值列的阈值设置为1，即若某一列的值都一样，剔除该列；去掉过多的0值特征列，零值比率设置为0.4，某一列的零值超过40％判断其为无效特征，剔除该列；进行分箱处理，其中箱数为经验值，将所有目标数据集数据按照属性值分为20个子区间即框，同一框中的属性值与样本中的属性值相同，用信息熵计算每个目标数据集数据的信息熵，p(x)为信息熵，当信息熵值小于0.3时，将该列数据移除，信息熵公式如下，H(X)＝∑
x∈X
p(x)
·
logp(x)；对异常数据进行平滑处理，单数据在目标数据集数据中的平均表达量计算为μ，单数据在目标数据集数据中的方差表达量计算为σ，如果单数据的表达水平超出[μ
‑
4σ，μ+4σ]的范围，则将其平滑为该区间的边界值。3.根据权利要求1所述的基于PCA的单细胞异常值处理方法，其特征在于：所述步骤120中的过程包括以下：用最大最小值归一化，单数据的表达水平归一化为[0，1]，x
min
和x
max
分别为某行的最小值和最大值，则归一化公式为，4.根据权利要求1所述...

【专利技术属性】
技术研发人员：赵利权，朱晓姝，蒙爽，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人