当前位置: 首页 > 专利查询>中南大学专利>正文

基于拓扑特性的稀有类型细胞检测方法、系统及设备技术方案

技术编号:34848674 阅读:22 留言:0更新日期:2022-09-08 07:48
本公开实施例中提供了一种基于拓扑特性的稀有类型细胞检测方法、系统及设备,属于数据处理技术领域,具体包括:输入一个单细胞表达谱、N个细胞和M个基因,计算KNN最近邻距离矩阵X;根据每个细胞与其他k个近邻细胞的距离向量,计算该细胞的四个领域拓扑特性,并以此构建细胞领域拓扑特征矩阵R;基于拓扑特征矩阵R,结合局部异常因子检测算法计算每个细胞的稀有性分数,并根据自适应参数优化方法设定阈值,输出稀有类型细胞的二元预测结果;将稀有类型细胞的二元预测结果结合社区发现算法进一步对稀有细胞进行亚群划分。通过本公开的方案,从稀有类型细胞近邻差异出发构建拓扑特征矩阵降低了数据维度,提升了预测效率、精准度和适应性。和适应性。和适应性。

【技术实现步骤摘要】
基于拓扑特性的稀有类型细胞检测方法、系统及设备


[0001]本公开实施例涉及数据处理
,尤其涉及一种基于拓扑特性的稀有类型细胞检测方法、系统及设备。

技术介绍

[0002]目前,与传统测序技术相比,单细胞测序技术通过提供高分辨率测序数据极大程度的提高生命医学领域的研究精度,为一些重要的医学问题提供新的解决方案,帮助研究人员实现从细胞水平对生物体的发育及疾病进展深入探索。发现稀有细胞类型,例如短暂存在的前体细胞、内皮祖细胞、抗原特异性T细胞、干细胞、循环肿瘤细胞或是癌细胞、不变型自然杀伤性T细胞等对于患者的临床诊断治疗有很大的帮助,对于深入理解正常和疾病状态下的组织生物学具有非常重要的意义。目前单细胞转录组数据的分析流程已经比较成熟,近年来已经涌现出大量针对单细胞转录组数据的聚类算法,他们能够较好的发现其中常见的细胞类型以进行后续标志物的筛选。然而研究一个组织或器官的发育变化及功能就需要清晰的知道其中所有的细胞类型,仅仅只了解其中的常见细胞类型是远远不够的。目前绝大多数异质性分析算法都是针对常见细胞类型进行分析的,因为常见细胞类型的细胞数量较多且表达量高,往往可以通过对其高可变基因,即细胞与细胞之间表达量差别最大的基因计算相似性进行聚类便可以达到较为理想的效果。对于一些稀有细胞类型来说,常见细胞类型的高可变基因特征选择并不适用,但是鉴定出在稀有类型细胞中特异表达并且可以进行类型划分的标记基因目前仍存在较大的挑战。而且稀有类型细胞相比于常见类型细胞会更容易受到样本质量或者批次效应等多种因素的干扰,不仅如此,大多数稀有细胞类型混合在常见细胞类型中导致稀有细胞类型和常见细胞类型之间很难区分。
[0003]目前绝大部分鉴定稀有类型细胞的算法都依赖于单细胞聚类算法,这样往往会暴露一些耗时久,假阳率高且准确率低等问题。目前主流的稀有类型细胞检测算法GiniClust3、RaceID3、CellSIUS、Fire和GapClust及其优缺点。其中GiniClust3、RaceID3和CellSIUS算法核心都是基于聚类,所以只能输出单细胞表达谱的二元预测结果。GiniClust3的设计思路是基于基尼指数选择基尼基因进行聚类。当单细胞表达谱中生物复杂度高时,GiniClust3无法考虑稀有细胞类型簇内的关系,所以并不适用于稀有细胞亚型划分。CellSIUS是基于K

means先进行粗聚类再对类内进行细分,其预测性能较差且假阳率高。RaceID3也是基于K

means算法设计,但是其耗时极高,当数据集细胞数量达到5k时,其计算消耗时间超过78h。Fire和GapClust可以输出单细胞表达谱的连续稀有性分数,其中Fire是基于随机投影得到的哈希码为每个细胞计算稀有性分数,但是其特征选择过程需要消耗大量的时间和内存。GapClust是基于近邻距离变化的二阶偏导为每个细胞计算稀有性分数,其参数近邻位置的选择可以直接大幅度影响预测结果精度。由此可见GapClust方法的参数敏感性较强且鲁棒性差,实验结果会较大程度受到数据集中噪声点的影响。
[0004]目前主流的稀有细胞类型检测方法存在以下问题:(1)如何设计快速高效的稀有细胞检测方法;(2)如何结合其他生物信息,提高稀有细胞类型划分的精度。(3)如何降低稀
有类型细胞检测的假阳性;(4)如何提高稀有细胞检测的召回率和准确率。
[0005]可见,亟需一种高效精准、适应性强的基于拓扑特性的稀有类型细胞检测方法。

技术实现思路

[0006]有鉴于此,本公开实施例提供一种基于拓扑特性的稀有类型细胞检测方法、系统及设备,至少部分解决现有技术中存在检测效率、精准度和适应性较差的问题。
[0007]第一方面,本公开实施例提供了一种基于拓扑特性的稀有类型细胞检测方法,包括:
[0008]步骤1,输入一个单细胞表达谱、N个细胞和M个基因,通过数据预处理保留表达散度排名靠前的M1个高可变基因构成特征矩阵,并对得到的特征矩阵计算KNN最近邻距离矩阵X;
[0009]步骤2,对得到N个细胞与k个近邻细胞距离构成的近邻距离矩阵X,根据每个细胞与其他k个近邻细胞的距离向量,计算其熵值H(X)、平均值中位数m
0.5
和偏度g作为该细胞的四个领域拓扑特性,并以此构建细胞领域拓扑特征矩阵R;
[0010]步骤3,基于拓扑特征矩阵R,结合局部异常因子检测算法计算每个细胞的稀有性分数,并根据自适应参数优化方法设定阈值,输出稀有类型细胞的二元预测结果;
[0011]步骤4,将稀有类型细胞的二元预测结果结合社区发现算法进一步对稀有细胞进行亚群划分。
[0012]根据本公开实施例的一种具体实现方式,所述步骤2具体包括:
[0013]计算熵值拓扑特征H(X)的公式表示为:
[0014][0015]其中p(x
ij
)表示第i个细胞的第j位近邻距离的概率,其公式表示为:
[0016][0017]领域拓扑特征代表平均值拓扑特征,其公式表示为:
[0018][0019]采用X
0.5
代表中位数拓扑特征,其计算方式表示为:
[0020]当近邻数k为奇数时,
[0021][0022]当近邻数k为偶数时,
[0023][0024]采用Skew(X)代表偏度拓扑特征,其计算方式表示为:
[0025]Skew(X
i
)=g([x
i1
,x
i2
,x
i3
,

,x
ik
]),i∈(1,2,

,N)
[0026]其中k表示近邻数,N表示细胞数量,x
ij
表示第i个细胞的第j个近邻距离,H(X)表示
熵值,表示平均值,m
0.5
表示中位数和g表示偏度;
[0027]根据以上的四个拓扑特征构建拓扑特征矩阵R:
[0028][0029]根据本公开实施例的一种具体实现方式,所述局部异常因子检测算法的表达式为表示细胞i领域点N
k
(i)的局部可达密度与细胞i的局部可达密度之比的平均数;
[0030]其中,lrd(i)表示细胞i的局部可达密度,公式表示为:
[0031][0032]可达距离distance
k
(i,p)表示为:
[0033]distance
k
(i,p)=max{distance
k
(p),d(i,p)}
[0034]其中,distance
k
(i,p)表示细胞p到细胞i的第k可达距离,至少为p的k近邻距离或者是i和p的距离,d(i,p)表示为i和p之间的距离。
[0035]根据本公开实施例的一种具体实现方式,所述步骤3具体包括:
[0036]利用数据驱动的方式输入预设的稀有细胞比例;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于拓扑特性的稀有类型细胞检测方法,其特征在于,包括:步骤1,输入一个单细胞表达谱、N个细胞和M个基因,通过数据预处理保留表达散度排名靠前的M1个高可变基因构成特征矩阵,并对得到的特征矩阵计算KNN最近邻距离矩阵X;步骤2,对得到N个细胞与k个近邻细胞距离构成的近邻距离矩阵X,根据每个细胞与其他k个近邻细胞的距离向量,计算其熵值H(X)、平均值中位数m
0.5
和偏度g作为该细胞的四个领域拓扑特性,并以此构建细胞领域拓扑特征矩阵R;步骤3,基于拓扑特征矩阵R,结合局部异常因子检测算法计算每个细胞的稀有性分数,并根据自适应参数优化方法设定阈值,输出稀有类型细胞的二元预测结果;步骤4,将稀有类型细胞的二元预测结果结合社区发现算法进一步对稀有细胞进行亚群划分。2.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:计算熵值拓扑特征H(X)的公式表示为:其中p(x
ij
)表示第i个细胞的第j位近邻距离的概率,其公式表示为:领域拓扑特征代表平均值拓扑特征,其公式表示为:采用X
0.5
代表中位数拓扑特征,其计算方式表示为:当近邻数k为奇数时,当近邻数k为偶数时,采用Skew(X)代表偏度拓扑特征,其计算方式表示为:Skew(X
i
)=g([x
i1
,x
i2
,x
i3
,

,x
ik
]),i∈(1,2,

,N)其中k表示近邻数,N表示细胞数量,x
ij
表示第i个细胞的第j个近邻距离,H(X)表示熵值,表示平均值,m
0.5
表示中位数和g表示偏度;根据以上的四个拓扑特征构建拓扑特征矩阵R:3.根据权利要求1所述的方法,其特征在于,所述局部异常因子检测算法的表达式为
表示细胞i领域点N
k
(i)的局部可达密度与细胞i的局部可达密度之比的平均数;其中,lrd(i)表示细胞i的局部可达密度,公式表示为:可达距离dista...

【专利技术属性】
技术研发人员:李敏郑瑞清刘澜
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1