一种高维数据可视化分析方法及系统技术方案

技术编号：38092506 阅读：14 留言：0更新日期：2023-07-06 09:05

本发明专利技术实施例公开了一种高维数据可视化分析方法及系统，包括：获取高维数据集；对高维数据集进行预处理，得到预处理数据集；其中，预处理步骤包括：将高维数据集整合成一个含有相同通道的数据矩阵；对数据矩阵进行标准化处理，得到标准化数据矩阵；利用harmony算法去除标准化数据矩阵的批次效应；对预处理数据集进行降维分析后，输出可视化视图。本发明专利技术通过对高维数据进行数据整合、数据标准化以及去除异常数据，节省降维资源消耗，使得降维后的数据分析结果更加准确；同时，本发明专利技术在数据降维过程中可自由选择降维分析方式和聚类方法，在降维分析后，定义差异化亚群，对差异化亚群进行二次降维分析，使得可视化可靠性高，结果更可信。信。信。

全部详细技术资料下载

【技术实现步骤摘要】
一种高维数据可视化分析方法及系统

[0001]本专利技术涉及数据分析
，具体涉及一种高维数据可视化分析方法及系统。

技术介绍

[0002]数据分析是一种从数据集中挖掘数据规律以及数据间关联关系的技术，而确定数据集的数据分布则是数据分析过程中所要解决的重要问题之一。数据集通常具有多个维度，且不同的维度用于指示不同的属性或特征。
[0003]在生物实验中，比如流式细胞术收集单个细胞多个参数，包括三个物理参数：蓝激光下的前向光、蓝激光下的侧向散射光、紫激光下的侧向散射光；多种荧光参数：不同蛋白结合对应抗体偶联荧光的荧光平均强度。对于低维度的数据集，根据数据集中的数据绘制数据点集即可直观了解到数据的分布情况；但是对于高维度的数据集，则难以通过绘制数据点集的方式来确定数据的分布情况。现有技术中，为了实现数据分布可视化，当数据集的维度较高时，需要对数据集进行降维分析。其中，常见的降维分析方式包括线性降维分析(PCA，LDA)、非线性降维分析(t
‑
SNE，UMAP，MDS)等等，聚类的方式有划分式聚类方法、密度聚类方法、层次聚类方法、图聚类，神经网络聚类等等。但是现有的方法在实施的过程中存在以下问题：1、在对高维数据集进行降维的过程中，导入的数据质量不一，存在空数据、数据批间差、仪器不稳定导致的异常数据等，这些数据的存在会影响结果分析的准确度。2、在降维的过程中可选用的降维分析方式的单一，聚类方法单一，不可以根据数据的特点，自行选择降维方式和聚类方法。

技术实现思路

[0004]针

【技术保护点】

【技术特征摘要】
1.一种高维数据可视化分析方法，其特征在于，包括：获取高维数据集；对所述高维数据集进行预处理，得到预处理数据集；其中，所述预处理步骤包括：将所述高维数据集整合成一个含有相同通道的数据矩阵；对所述数据矩阵进行标准化处理，得到标准化数据矩阵；利用harmony算法去除所述标准化数据矩阵的批次效应；对所述预处理数据集进行降维分析后，输出可视化视图。2.如权利要求1所述的高维数据可视化分析方法，其特征在于，所述高维数据集包括由多色流式细胞术测试得到的第一数据集、由质谱流式细胞术测试得到的第二数据集、由单细胞测序得到的第三数据集、GEO数据库中的第四数据集、TCGA数据库中的第五数据集以及由多重荧光免疫组化技术测试得到的第六数据集中的一种或两种以上的组合。3.如权利要求1所述的高维数据可视化分析方法，其特征在于，所述预处理步骤还包括：利用isotype的标记效果去除所述标准化数据矩阵的非特异性荧光背景。4.如权利要求1所述的高维数据可视化分析方法，其特征在于，高维数据集中的每个样品数据在整合之前，需要经过随机downsample取样。5.如权利要求1所述的高维数据可视化分析方法，其特征在于，对所述预处理数据集进行降维分析包括：利用PCA或LDA对所述预处理数据集进行线性降维分析；或，利用t
‑
SNE、UMAP或MDS对所述预处理数据集进行非线性降维分析。6.如权利要求5所述的高维数据可视化分析方法，其特征在于，对所述预处理数据集进行降维分析后，再利用划分式聚类方...

【专利技术属性】
技术研发人员：公杰，童云丽，金立强，张俊宾，谭卿，
申请(专利权)人：广州睿贝医学科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人