一种基于密度和非参数聚类的流式细胞术全自动分群方法技术

技术编号:32548263 阅读:17 留言:0更新日期:2022-03-05 11:47
本发明专利技术公开了一种基于密度和非参数聚类的流式细胞术全自动分群方法,属于医学数据处理和流式细胞术数据分析的技术领域,兼顾了不同算法特点和流式细胞术数据分析流程,全程不需要用户指定细胞群数量,有利于自动化过程和新型细胞群体的发现和挖掘;降维速度快,UMAP降维速度比t

【技术实现步骤摘要】
一种基于密度和非参数聚类的流式细胞术全自动分群方法


[0001]本专利技术涉及医学数据处理和流式细胞术数据分析的
,具体涉及一种基于密度和非参数聚类的流式细胞术全自动分群方法。

技术介绍

[0002]现有的细胞分群方法基于主成分分析(PCA)降维和K

means聚类。在该算法中,PCA降维速度快,适合阳性群和阴性群分群十分清晰的情况,一旦阳性和阴性没有充分分开时,降维后的群体会发生重叠,导致聚类困难;K

means聚类精度差,仅适合准确聚类区分降维后呈类圆形分布的细胞群体,而在降维后不规则分布的细胞群体,聚类能力极差,而且K

means算法需要事先指定细胞群数量,这对自动分群是一个障碍,会引入人为分群误差,不利于自动化过程和新型细胞群体的发现和挖掘。还有的方法未涉及降维算法,直接采用神经网络模型在多维空间进行分群和细胞性质判断,在准确度和性能上,会有较大损失。

技术实现思路

[0003]针对现有技术的不足,本专利技术提供了一种基于密度和非参数聚类的流式细胞术全自动分群方法,解决了上述
技术介绍
中提出的问题。
[0004]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于密度和非参数聚类的流式细胞术全自动分群方法,包括以下步骤:
[0005](1)读取流式细胞仪产生的原始数据FCS或LMD文件,读取后,将原始数据FCS或LMD文件保存为一个内存中的变量curData;
[0006](2)对变量curData进行预处理;
[0007](3)对于预处理后的变量curData,自动应用SpillOver矩阵,优先级依次为FCS/LMD文件自带的SpillOver矩阵、既往保存过的通用SpillOver矩阵;
[0008](4)若步骤(3)中不存在FCS/LMD文件自带的SpillOver矩阵和既往保存过的通用SpillOver矩阵,则自动跳出调节SpillOver矩阵的窗口,给用户可视化调节SpillOver矩阵,应用于变量curData,同时保存为通用SpillOver矩阵;
[0009](5)对应用SpillOver矩阵之后的变量curData,进行自动Logicle转换;
[0010](6)对变量curData进行自动降维;
[0011](7)对降维后的数据按照细胞群体密度分布进行自动聚类;
[0012](8)对降维后密度分布差异不大且部分连接在一起的细胞群体,继续使用非参数聚类和基于分段回归的变化点检测进一步细分;
[0013](9)对无法细分的细胞群体进行人工干预;
[0014](10)根据聚类结果,将流式数据以两两组合的散点图呈现给用户,且标注细胞比例和数量。
[0015]作为优选,所述步骤(2)中预处理的步骤包括:
[0016](2.1)去除Time坐标轴上液流不稳定的信号;
[0017](2.2)如果数据中存在FSC的A、H或W通道信号,则进行FSC信号的粘连体排除处理;
[0018](2.3)如果数据中存在SSC的A、H或W通道信号,则进一步去除SSC信号的粘连体。
[0019]作为优选,所述步骤(6)中的降维算法采用UMAP(Uniform Manifold Approximation and Projection for Dimension Reduction)。
[0020]作为优选,所述步骤(7)中的自动聚类算法采用DBSCAN(Density

based spatial clustering of applications with noise)或OPTICS(Ordering points to identify the clustering structure)或HDBSCAN(Hierarchical Density

Based Spatial Clustering of Applications with Noise)。
[0021]作为优选,所述步骤(8)中的细分算法采用密度类算法或树状聚类算法,具体包括FlowMeans、K

means、K

means++、SOM(Self

organizing map)、Affinity propagation、Hierarchical clustering、BIRCH、Spectral clustering、Expectation

maximization algorithm。
[0022]本专利技术提供了一种基于密度和非参数聚类的流式细胞术全自动分群方法,具备以下有益效果:
[0023]1、兼顾了不同算法特点和流式细胞术数据分析流程,全程不需要用户指定细胞群数量,有利于自动化过程和新型细胞群体的发现和挖掘;
[0024]2、降维速度快,UMAP降维速度比t

SNE降维快2

10倍,大大节约自动分群时间;
[0025]3、DBSCAN结合FlowPeaks算法,可对任何形状的细胞群体进行准确区分,且可有效排除噪音干扰和非特异信号;
[0026]4、对稀有细胞的分析能力好,可实现最少5个细胞的自动聚类;
[0027]5、最后呈现的结果,根据临床实际分析习惯以两两组合散点图呈现,在当前临床常用的10色流式中进行了广泛测试,兼容2色

50色甚至更高维度的流式数据。
附图说明
[0028]图1为本专利技术的流程步骤图;
[0029]图2为本专利技术实施例1的细胞聚类图;
[0030]图3为本专利技术实施例1中非特异信号3的散点图;
[0031]图4为本专利技术实施例1中非特异信号10的散点图;
[0032]图5为本专利技术实施例1中中性粒细胞1的散点图;
[0033]图6为本专利技术实施例1中T细胞2的散点图;
[0034]图7为本专利技术实施例1中髓系祖细胞4的散点图;
[0035]图8为本专利技术实施例1中单核细胞5的散点图;
[0036]图9为本专利技术实施例1中B细胞6的散点图;
[0037]图10为本专利技术实施例1中嗜酸粒细胞7的散点图;
[0038]图11为本专利技术实施例1中NK细胞8的散点图;
[0039]图12为本专利技术实施例1中嗜碱粒细胞9的散点图;
[0040]图13为本专利技术实施例1中浆细胞11的散点图。
具体实施方式
[0041]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0042]实施例1
[0043]一例白细胞减少患者的骨髓样本,10色方案,根据本专利技术图1所示方法,获取流式FCS或LMD文件,读取数据,将各荧光通道数据结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于密度和非参数聚类的流式细胞术全自动分群方法,其特征在于,包括以下步骤:(1)读取流式细胞仪产生的原始数据FCS或LMD文件,读取后,将原始数据FCS或LMD文件保存为一个内存中的变量;(2)对变量curData进行预处理;(3)对于预处理后的变量curData,自动应用SpillOver矩阵,优先级依次为FCS/LMD文件自带的SpillOver矩阵、既往保存过的通用SpillOver矩阵;(4)若步骤(3)中不存在FCS/LMD文件自带的SpillOver矩阵和既往保存过的通用SpillOver矩阵,则自动跳出调节SpillOver矩阵的窗口,给用户可视化调节SpillOver矩阵,应用于变量curData,同时保存为通用SpillOver矩阵;(5)对应用SpillOver矩阵之后的变量curData,进行自动Logicle转换;(6)对变量curData进行自动降维;(7)对降维后的数据按照细胞群体密度分布进行自动聚类;(8)对降维后密度分布差异不大且部分连接在一起的细胞群体,继续使用非参数聚类和基于...

【专利技术属性】
技术研发人员:倪万茂林鹏程迟妍妍倪万根陈乐芝陈鹏贵陈慧项艺超
申请(专利权)人:浙江博真生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1