基于密度‑距离中心算法的流式细胞粒子分类计数方法技术

技术编号:16642688 阅读:29 留言:0更新日期:2017-11-26 14:30
本发明专利技术涉及一种基于密度‑距离中心算法的流式细胞粒子分类计数方法,包括以下步骤:1)采用流式细胞分析仪获取待分类计数的细胞粒子的流式数据集,所述的流式数据集包含粒子的多维数据;2)根据密度‑距离中心算法获取流式数据集中每个粒子的局部密度和距离参数,进行筛选和排序,获取待聚类的初始类群中心;3)将初始类群中心作为混合模型算法的初始值,根据混合模型对粒子群进行聚类,得到分类后的多个粒子类群,进行计数统计。与现有技术相比,本发明专利技术具有准确性高,稳定性好、适应流式数据的分布、适应小样本粒子群的分类、计算速度快等优点。

Flow cytometry particle counting method density classification algorithm based on center distance

The invention relates to a flow cytometry particle counting method density classification algorithm based on center distance, which comprises the following steps: 1) by flow cytometry data flow cytometry cell count to obtain particle sets, flow cytometry data of the set of multidimensional number contains particles according to 2) according to the density distance; the center algorithm for streaming data on each particle's local density and distance parameters, screening and sorting, to obtain the initial clustering center group; 3) the initial group center as the initial value of the mixture model algorithm, based on the mixed model of particle swarm clustering, get multiple particle groups after the classification, counting statistics. Compared with the existing technology, the invention has the advantages of high accuracy, good stability, adapting to the distribution of streaming data, adapting to the classification of small sample particle swarm, and fast calculation speed, etc..

【技术实现步骤摘要】
基于密度-距离中心算法的流式细胞粒子分类计数方法
本专利技术涉及细胞粒子分类测量领域,尤其是涉及一种基于密度-距离中心算法的流式细胞粒子分类计数方法。
技术介绍
流式细胞分析术(flowcytometry,FCM)是采用流式细胞仪进行定量分析的技术,其利用流体动力学聚焦原理,将被分析的细胞或微粒排成一列,逐个快速地流过检测光束,通过高精密的光学系统、电子学信号处理和计算机数据分析,测定细胞或微粒引发的多角度散射光和多色荧光,可以在短时间内获得上万个细胞或微粒的大小、内部结构、核酸、蛋白质等物理及化学特征。流式细胞术以其快速、准确、大批量、多参数分析等优点,是生物医疗领域中进行前沿科学研究的重要的基础性科研仪器;同时,也是重要的临床检验设备。每个细胞或微粒引发的多角度散射光和多色荧光,通过光学系统收集和光电传感器转化为电信号,经过电子学信号处理和采样成为数字信号,由计算机存储和进行数据分析;流式细胞仪获取的所有细胞或微粒的特征数据称为流式数据。传统上,流式数据的分析依靠有经验的人员将数据投影至二维散点图中,然后采用区域设门的方式对感兴趣的类群进行分析,如分类和计数,被称为人工设门法。随着流式细胞术的不断发展,流式数据量成倍增加,数据的自动分析已经成为流式细胞技术未来发展的主要方向。针对流式数据的聚类分析,一些自动分析方法先后被提出,主要可分为基于概率分布的聚类方法以及基于空间信息的聚类方法。基于概率分布的聚类方法主要是有限混合模型聚类算法,如基于贝叶斯信息准则的高斯混合模型算法,该算法对由正态或者近正态分布的数据集组成的细胞类群有较好的处理能力;t-分布混合模型算法将非正态分布的数据转换为近正态分布,代替高斯混合模型对流式数据进行聚类分析;还有偏斜t-分布混合模型算法,能较好地处理非对称分布的数据。这些混合模型聚类算法不断发展,提高了模型对不同数据分布的适应能力。但是,高斯分布、t-分布和偏t-分布等混合模型本身求出的解是局部最优的,因此基于有限混合模型的聚类算法依赖于初始点(也就是类群中心)的位置。由于实际数据往往比较复杂,如噪音点多的情况,混合模型聚类算法会有误分,所以算法的稳定性不高。基于空间信息的聚类方法是流式数据分析的另一类主要方法,如K-means算法和DBSCAN算法,对流式数据的聚类能力有限。基于有限混合模型的聚类算法对于流式数据的分析更适合,应用得相对较多。由于基于有限混合模型的聚类算法依赖于初始点(也就是类群中心)的位置,其对模型的初值很敏感。基于K-means以及混合模型的聚类算法对于初始类群中心点的选取往往是随机的,人们习惯于使初始聚类中心的相互距离尽可能地远,但是K-means算法本身求得的是局部最优解,因此对于随机的初值依然有可能陷入局部最优,很难稳定地选取模型的初值,不能保证结果的准确性和稳定性。在实际情况中,流式数据往往比较复杂,各种恶劣情况对流式数据的聚类分析挑战很大,如噪音点多的情况,前人方法有时会把噪音点误分为一个单独的类群。另外,样本量小且分布稀疏的类群并没有很好的解决办法。例如,人外周血的白细胞分类分析中,通常单核细胞占白细胞总量的2%~10%,嗜酸性粒细胞占白细胞总量的1%~6%,而淋巴细胞约占40%,粒细胞约占50%,是占绝大多数的类群。在这样的多类群聚类分析中,大样本类群与小样本类群的数量相差悬殊且相互靠近,难点是小样本类群的定位和区分。小样本类群由于样本量少,且分布稀疏,很容易受相邻的优势类群的干扰,而被误分为其他类群的一部分,因此小样本类群对算法的鉴别力和稳定性的要求很高。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于密度-距离中心算法的流式细胞粒子分类计数方法。本专利技术的目的可以通过以下技术方案来实现:一种基于密度-距离中心算法的流式细胞粒子分类计数方法,包括以下步骤:1)采用流式细胞分析仪获取待分类计数的细胞粒子的流式数据集,所述的流式数据集包含粒子的多维数据;2)根据密度-距离中心算法获取流式数据集中每个粒子的局部密度和距离参数,进行筛选和排序,获取待聚类的初始类群中心;3)将初始类群中心作为混合模型算法的初始值,根据混合模型对粒子群进行聚类,得到分类后的多个粒子类群,进行计数统计。所述的步骤1)中,当流式数据集中的数据为二维数据时,将前向散射光通道数据作为y轴,侧向散射光通道的数据作为x轴形成二维散点图;或将侧向散射光通道数据作为y轴,荧光通道的数据作为x轴形成二维散点图;当流式数据集中的数据为三维数据时,将前向散射光通道数据作为x轴,侧向散射光通道的数据作为y轴,荧光通道的数据作为z轴形成三维散点图。所述的步骤2)具体包括以下步骤:21)对于流式数据集S={x1,x2...xi...xn},定义其中的第i个粒子xi的局部密度ρi和距离δi参数分别为;其中,dij为xi到xj的欧氏距离,dc为截断距离,χ(x)为一函数;22)设定局部密度阈值ρ0,并且排除局部密度小于阈值的粒子;23)将剩余的所有粒子按照距离从大到小的顺序排列成序列;24)设定类群数目k,根据序列依次选取前k个粒子作为待聚类的初始类群中心。所述的步骤21)中,当第i个粒子为局部密度最大的点时,则赋值δi为第i个粒子到所有点的距离的最大值,则有:所述的步骤21)中,当存在多个局部密度相同的粒子点时,则对此局部密度加上一个趋近于0的增量,然后重新计算每个粒子的局部密度和距离参数。所述的步骤24)中,当两个类群中心的欧氏距离小于设定的阈值时,则将其视为同一类群,取此两个类群中心中的任意一点作为新的类群中心,或取此两个类群中心中局部密度较大的点作为新的类群中心。所述的步骤3)中,混合模型算法包括高斯混合模型、t-分布混合模型和偏t-分布混合模型。与现有技术相比,本专利技术具有以下优点:一、准确性高,稳定性好:采用密度-距离中心算法先找到各粒子类群的初始中心,因此后述聚类过程准确性高,稳定性好,不会出现局部最优解造成误分的情况。二、适应流式数据的分布:采用混合模型(如高斯模型,t-分布混合模型以及偏t-分布混合模型等)进行聚类,能有效适应流式数据的分布特点。三、适应小样本粒子群的分类:本文方法能有效地处理小样本粒子群,定位和分类的准确性高。四、计算速度快:由密度-距离中心算法确定初始类群中心,作为混合模型聚类算法的初始中心值,计算速度加快。附图说明图1为本专利技术的方法流程图。图2为本专利技术的实施例I的示意图,其中,图(2a)为距离-密度分布图,图(2b)为二维散点图,图(2c)为聚类后的结果。图3为本专利技术的实施例II的示意图,其中,图(3a)为距离-密度分布图,图(3b)为二维散点图,图(3c)为聚类后的结果。图4为本专利技术的实施例III的示意图,其中,图(4a)为距离-密度分布图,图(4b)为二维散点图,图(4c)为聚类后的结果。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本专利技术提出了一种基于密度-距离中心的混合模型流式数据聚类方法,将密度-距离中心算法应用到流式数据的初始聚类中心的定位上,来确定初始类群中心,从而保障有限混合模型结果的稳定性与准确性。本方法将基于概率分布以及空间信息(密度与距离)的方法融合在一起,从而能较好地解决小样本类群的区分问本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/52/201710641341.html" title="基于密度‑距离中心算法的流式细胞粒子分类计数方法原文来自X技术">基于密度‑距离中心算法的流式细胞粒子分类计数方法</a>

【技术保护点】
一种基于密度‑距离中心算法的流式细胞粒子分类计数方法,其特征在于,包括以下步骤:1)采用流式细胞分析仪获取待分类计数的细胞粒子的流式数据集,所述的流式数据集包含粒子的多维数据;2)根据密度‑距离中心算法获取流式数据集中每个粒子的局部密度和距离参数,进行筛选和排序,获取待聚类的初始类群中心;3)将初始类群中心作为混合模型算法的初始值,根据混合模型对粒子群进行聚类,得到分类后的多个粒子类群,进行计数统计。

【技术特征摘要】
1.一种基于密度-距离中心算法的流式细胞粒子分类计数方法,其特征在于,包括以下步骤:1)采用流式细胞分析仪获取待分类计数的细胞粒子的流式数据集,所述的流式数据集包含粒子的多维数据;2)根据密度-距离中心算法获取流式数据集中每个粒子的局部密度和距离参数,进行筛选和排序,获取待聚类的初始类群中心;3)将初始类群中心作为混合模型算法的初始值,根据混合模型对粒子群进行聚类,得到分类后的多个粒子类群,进行计数统计。2.根据权利要求1所述的一种基于密度-距离中心算法的流式细胞粒子分类计数方法,其特征在于,所述的步骤1)中,当流式数据集中的数据为二维数据时,将前向散射光通道数据作为y轴,侧向散射光通道的数据作为x轴形成二维散点图;或将侧向散射光通道数据作为y轴,荧光通道的数据作为x轴形成二维散点图;当流式数据集中的数据为三维数据时,将前向散射光通道数据作为x轴,侧向散射光通道的数据作为y轴,荧光通道的数据作为z轴形成三维散点图。3.根据权利要求1所述的一种基于密度-距离中心算法的流式细胞粒子分类计数方法,其特征在于,所述的步骤2)具体包括以下步骤:21)对于流式数据集S={x1,x2...xi...xn},定义其中的第i个粒子xi的局部密度ρi和距离δi参数分别为;

【专利技术属性】
技术研发人员:陶靖
申请(专利权)人:上海纳衍生物科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1