当前位置: 首页 > 专利查询>山东大学专利>正文

基于一致性矩阵评分的单细胞聚类方法及系统技术方案

技术编号:38814873 阅读:14 留言:0更新日期:2023-09-15 19:54
本发明专利技术属于单细胞聚类方法领域,提供了基于一致性矩阵评分的单细胞聚类方法及系统,基于基因表达数据进行组合降维后,得到多个一致性矩阵,对每个一致性矩阵进行聚类,得到对应的聚类结果;结合一致性矩阵和其对应的聚类结果,采用打分方法计算出每一个一致性矩阵的f

【技术实现步骤摘要】
基于一致性矩阵评分的单细胞聚类方法及系统


[0001]本专利技术属于单细胞聚类方法领域,尤其涉及基于一致性矩阵评分的单细胞聚类方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]单细胞测序(scRNA

seq)技术以单细胞为分辨率获取转录组信息,使人们以更高精度观测细胞从而更好地识别稀有细胞类型,在肿瘤研究、神经疾病、免疫疾病等涉及细胞间异质性的疾病研究能发挥巨大作用,能有效帮助本专利技术深入探索细胞的特性、命运和功能结构。聚类是单细胞RNA测序数据分析中最常用的基础分析方法之一,该方法能实现单个细胞类别的区分,这在复杂器官组织的单细胞研究、临床疾病的诊治等方面发挥极为重要的作用。因此,实现单细胞数据的精准聚类在生物信息学领域具有重要研究意义。作为一种非监督算法,它可以在数据的真实标签未知的前提下,提取数据中的有效特征并判别不同样本之间的相似性,将具有相似特征的样本归到同一簇内,从而实现对样本的分类。
[0004]追溯以往的单细胞聚类算法,现有的大部分聚类算法存在以下问题:
[0005]1.目前大多数单细胞聚类算法,针对不同的数据集,执行的数据预处理和降维等关键操作是固定且单一的。然而在实际应用中,不同的数据集对预处理方法和降维方式的敏感性存在很大差异。
[0006]2.缺少一个合理的指标,无法为不同数据集挑选具有数据特异性的预处理和降维方法的组合提供参考。
[0007]3.对于两两细胞之间距离计算的不合理性。SC3采用欧式距离的度量方式计算一致性矩阵中细胞之间的距离。然而,该距离计算方式过于粗糙,难以抓取细胞间特征的所有差异模式,必然会造成有效距离信息的丢失。

技术实现思路

[0008]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供基于一致性矩阵评分的单细胞聚类方法及系统,其通过打分值识别出最优预处理和降维方式的组合,以实现具有数据特异性的最优预处理和降维方式组合的挑选。充分利用细胞的间接距离,通过细胞之间的拓扑结构信息来获取具有数据特异性的最优距离度量,提高了聚类的准确度。
[0009]为了实现上述目的,本专利技术采用如下技术方案:
[0010]本专利技术的第一个方面提供基于一致性矩阵评分的单细胞聚类方法,包括如下步骤:
[0011]获取基因表达数据;
[0012]基于基因表达数据进行组合降维后,得到多个一致性矩阵,对每个一致性矩阵进行聚类,得到对应的聚类结果;
[0013]结合一致性矩阵和其对应的聚类结果,采用打分方法计算出每一个一致性矩阵的f

value,最高f

value分值对应的一致性矩阵为最优一致性矩阵;其中,所述结合一致性矩阵和其对应的聚类结果,采用打分方法计算出每一个一致性矩阵的f

value,具体包括:
[0014]计算一致性矩阵中每一行的类间距离和类内距离;基于每一行的类间距离和类内距离得到对应的f

value,将各行的f

value整合到一起,得到该一致性矩阵的f

value;
[0015]基于得到的最优一致性矩阵,构建细胞间的距离矩阵,并对细胞间的距离矩阵采用层次聚类得到最终的聚类结果。
[0016]本专利技术的第二个方面提供基于一致性矩阵评分的单细胞聚类系统,包括:
[0017]数据获取模块,其用于获取基因表达数据;
[0018]基于基因表达数据进行组合降维后,得到多个一致性矩阵,对每个一致性矩阵进行聚类,得到对应的聚类结果;
[0019]一致性矩阵评分模块,其用于结合一致性矩阵和其对应的聚类结果,采用打分方法计算出每一个一致性矩阵的f

value,最高f

value分值对应的一致性矩阵为最优一致性矩阵;其中,所述结合一致性矩阵和其对应的聚类结果,采用打分方法计算出每一个一致性矩阵的f

value,具体包括:
[0020]计算一致性矩阵中每一行的类间距离和类内距离;基于每一行的类间距离和类内距离得到对应的f

value,将各行的f

value整合到一起,得到该一致性矩阵的f

value;
[0021]聚类模块,其用于基于得到的最优一致性矩阵,构建细胞间的距离矩阵,并对细胞间的距离矩阵采用层次聚类得到最终的聚类结果。
[0022]本专利技术的第三个方面提供一种计算机可读存储介质。
[0023]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于一致性矩阵评分的单细胞聚类方法中的步骤。
[0024]本专利技术的第四个方面提供一种计算机设备。
[0025]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于一致性矩阵评分的单细胞聚类方法中的步骤。
[0026]与现有技术相比,本专利技术的有益效果是:
[0027]1.本专利技术设计基于一致性矩阵的f

value打分机制,为每种组合计算f

value值,通过打分值识别出最优预处理和降维方式的组合,以实现具有数据特异性的最优预处理和降维方式组合的挑选。解决了目前大多数单细胞聚类算法存在的对所有数据采用单一固定的数据预处理和降维操作的问题。
[0028]2.本专利技术基于最优一致性矩阵,设计出一种全新的距离度量SCM

tom,取代常用的欧式距离度量,充分利用细胞的间接距离,通过细胞之间的拓扑结构信息来获取具有数据特异性的最优距离度量,称为SCM

tom距离。
[0029]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0030]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示
意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0031]图1是本专利技术实施例提供的基于一致性矩阵评分的单细胞聚类方法流程图;
[0032]图2是本专利技术实施例提供的f

value在不同e值和p值下的准确率柱状图;
[0033]图3是本专利技术实施例提供的SCM

tom与SCM

eu的ARI值对比图;
[0034]图4是本专利技术实施例提供的本专利技术算法在不同数据集上与其他流行算法的ARI值对比图。
具体实施方式
[0035]下面结合附图与实施例对本专利技术作进一步说明。
[0036]应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于一致性矩阵评分的单细胞聚类方法,其特征在于,包括如下步骤:获取基因表达数据;基于基因表达数据进行组合降维后,得到多个一致性矩阵,对每个一致性矩阵进行聚类,得到对应的聚类结果;结合一致性矩阵和其对应的聚类结果,采用打分方法计算出每一个一致性矩阵的f

value,最高f

value分值对应的一致性矩阵为最优一致性矩阵;其中,所述结合一致性矩阵和其对应的聚类结果,采用打分方法计算出每一个一致性矩阵的f

value,具体包括:计算一致性矩阵中每一行的类间距离和类内距离;基于每一行的类间距离和类内距离得到对应的f

value,将各行的f

value整合到一起,得到该一致性矩阵的f

value;基于得到的最优一致性矩阵,构建细胞间的距离矩阵,并对细胞间的距离矩阵采用层次聚类得到最终的聚类结果。2.如权利要求1所述的基于一致性矩阵评分的单细胞聚类方法,其特征在于,所述基于得到的最优一致性矩阵,构建细胞间的距离矩阵,包括:将最优一致性矩阵作为最初的细胞间的相关系数矩阵;引入β指数增大相关系数之间的差异性,从而构建邻接矩阵;基于邻接矩阵得到各细胞的连通度和拓扑重叠矩阵,根据拓扑重叠矩阵得到细胞间的距离矩阵。3.如权利要求1所述的基于一致性矩阵评分的单细胞聚类方法,其特征在于,在获取基因表达数据后,进行数据预处理,具体包括:对基因表达数据进行了基因过滤,剔除基因表达率在设定范围之外的基因;基因过滤后,对每个预处理后的表达矩阵分别计算细胞之间的欧式距离、皮尔逊距离和斯皮尔曼距离。4.如权利要求1所述的基于一致性矩阵评分的单细胞聚类方法,其特征在于,所述一致性矩阵中每一行的类间距离和类内距离公式为:一致性矩阵中每一行的类间距离公式为:其中,n
j
是聚类结果R中第j个簇中细胞的数量;k是聚类结果R中簇的个数;是一致性矩阵Y中第i行的均值;是一致性矩阵Y中第i行在聚类结果R中的第j个簇中的均值。一致性矩阵中每一行的类内距离公式为:var_i(i)=var_a(i)

var_b(i)其中,N是一致性矩阵Y的行数即细胞的总数;Y
ij
表示一致性矩阵Y中第i行和第j列的值;var_a(i)代表距离总和。5.如权利要求1所述的基于一致性矩阵评分的单细胞聚类方法,其特征在于,当第i个细胞和第j个细胞之间的拓扑相关性越大时,对应的两个细胞之间的距离越近。6.如权利要求1所...

【专利技术属性】
技术研发人员:柳军涛余忆琳
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1