一种用于质谱流式数据挖掘的网络分析方法技术

技术编号:31631679 阅读:14 留言:0更新日期:2021-12-29 19:10
本发明专利技术公开了一种用于质谱流式数据挖掘的网络分析方法,涉及数据分析模型技术领域。开发样本分组和细胞簇之间的直接关联网络(Sample Classification and direct Association Network of Cell types,SCANCell)分析方法,将隐藏在高维质谱流式数据中的可用信息转化为细胞簇之间的直接关联(direct association,DA)网络的拓扑结构。DA网络表征了免疫细胞簇间直接交互作用的强度,排除了间接干扰的分布,使得SCANCell能够在DA网络拓扑结构层面上定量识别疾病特异性异常交互模式。SCANCell通过考虑细胞的蛋白表达量和细胞簇的丰度,为疾病的发病机制提供新的理解维度。本发明专利技术深入挖掘高维蛋白质组数据,更好地理解疾病特异性细胞和分子畸变;是首次以细胞簇间交互作用的角度描绘疾病发病机制的探索性研究,可促进潜在药物靶点的识别。可促进潜在药物靶点的识别。可促进潜在药物靶点的识别。

【技术实现步骤摘要】
一种用于质谱流式数据挖掘的网络分析方法


[0001]本专利技术涉及数据分析模型
,尤其涉及一种用于质谱流式数据挖掘的网络分析方法。

技术介绍

[0002]系统性红斑狼疮(Systemic lupus erythematosus,SLE)是一种系统性自身免疫性疾病,可引起皮肤、关节、肾脏和中枢神经系统等多器官损害。疾病的发病模式非常多变,包括皮肤科、肾脏科、神经科、血液科或风湿科,这使得准确诊断和临床治疗面临挑战。尽管存在这些挑战,但对SLE发病机制的认识进展有利于临床患者的治疗。
[0003]系统性红斑狼疮发病机制的研究进展强调了I型干扰素(IFN)和多种免疫细胞类型对自身抗体产生和组织损伤的贡献。慢性IFN的产生及其对免疫系统激活的影响已成为SLE的核心机制。IFN是由Toll样受体(TLRs)介导的先天性浆细胞树突状细胞(pDCs)激活后产生的。B细胞和T细胞免疫反应的过度激活以及对自身抗原的免疫耐受性的丧失也是SLE发病的原因之一。T滤泡辅助细胞可以促进产生自身抗体的B细胞分化。调节性T(Treg)细胞可以抑制免疫反应和维持免疫系统,但在SLE中细胞的丰度下降。尽管累积性的研究已经为初步理解疾病奠定了基础,但由于免疫系统的细胞复杂性和功能多样性,有必要采用高维度的单细胞技术对系统性的SLE发病机制进行研究。
[0004]质谱流式细胞技术(cytometry by time

of

flight,CyTOF)极大地增加了单细胞分辨率下同时检测的细胞参数的数量,从而揭示了系统性红斑狼疮发病的细胞和分子基础。结合ACCENSE、FlowSOM、X

shift、Monocle 2和PhenoGraph等专业方法,CyTOF分析发现了TLRs诱导的细胞类型内特异性反应的多样性,以及临床上异质性患者所共有的独特的CD14
hi
单核细胞分泌的细胞因子特征。这些研究说明了CyTOF在深入分析免疫细胞表型方面的优势,并为系统性红斑狼疮机制提供了宝贵的见解。
[0005]值得注意的是,CyTOF的多维性和复杂性还包含着对细胞簇之间"DA网络"的高维度洞察的全面认识。洞察多个细胞簇之间的交互模式的异常,可以推进对疾病病因、进展和发病机制相关特征的系统性识别和理解。研究表明,PD1
hi
CXCR5

外周辅助性T细胞在自身免疫性疾病中可以促进B细胞反应和抗体的产生。与识别单个失调的细胞子集相比,了解多个细胞簇之间交互模式的失调,可以提高对疾病相关特征的系统性识别和理解。
[0006]然而,目前的高维数据分析方法并不能从这类数据集中挖掘出隐藏在细胞簇间的交互作用模式。虽然细胞簇之间的统计相关性和显著性可以很容易地实现,但挖掘高维单细胞蛋白质组学数据的关键挑战是构建和量化跨细胞簇的全局交互网络,以理解SLE等多因素复杂型疾病的发病机制。
[0007]因此,本领域的技术人员致力于开发一种用于质谱流式数据挖掘的网络分析方法。SCANCell分析方法,将隐藏在高维质谱流式数据中的可用信息转化为细胞簇间的DA网络;DA网络可以直观地反映免疫系统功能的正常或受损;可以从网络中挖掘出健康样本和疾病样本之间的异常交互模式,有利于疾病发病机制的描述。

技术实现思路

[0008]鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是SCANCell分析方法,将隐藏在高维质谱流式数据中的可用信息转化为细胞簇之间的DA网络的拓扑结构;通过考虑细胞的蛋白表达量和细胞簇的丰度,为疾病的发病机制提供新的理解维度;挖掘高维蛋白质组数据,理解疾病特异性的细胞和分子畸变。
[0009]为实现上述目的,本专利技术提供了一种用于质谱流式数据挖掘的网络分析方法SCANCell,包括样本分组和细胞类型的DA网络的构建。
[0010]进一步地,所述SCANCell将所有样本的细胞划分为不同的细胞簇,同时提取簇中相应的细胞丰度直方图作为每个样本的特征。
[0011]进一步地,所述SCANCell利用EMD计算所有样本两两之间的距离矩阵,将所有样本分为不同的子组,并为每个子组构建一个所有细胞簇的DA网络。
[0012]进一步地,所述SCANCell利用部分互信息量化细胞簇间的交互作用强度。
[0013]进一步地,所述DA网络,每个节点代表一个细胞簇,每条边表示两个细胞簇之间的交互作用,边的权重表示交互强度。
[0014]进一步地,所述DA网络由Cytoscape软件可视化。
[0015]进一步地,包括如下步骤:
[0016]步骤1、细胞聚类;
[0017]步骤2、样本分组;
[0018]步骤3、DA网络的构建。
[0019]进一步地,所述步骤1包括如下步骤:
[0020]步骤1.1、所有的SLE数据都被一个反双曲正弦(arcsinh)函数标准化;
[0021]步骤1.2、采用完全无监督的Monocle 2算法来完成细胞聚类,从每个样本中选取一定数量的细胞,并将这些选取的细胞合并成一个整体的细胞数据;
[0022]步骤1.3、应用Monocle 2算法将聚合后的细胞进一步划分为若干个细胞簇,计算所有剩余细胞与每个细胞簇中心点之间的距离,将剩余细胞分配到距离最近的细胞簇中。
[0023]进一步地,所述步骤2包括如下步骤:
[0024]步骤2.1、从高维数据结构中提取每个样本的有效特征,并将每个样本重新描述为可计算、可操作的数据;
[0025]步骤2.2、利用EMD计算所有样本两两之间的距离矩阵,然后以这个矩阵为输入,利用层次聚类算法对样本进行分组。
[0026]进一步地,所述步骤3包括如下步骤:
[0027]步骤3.1、量化两个细胞簇之间的直接关联,并构建所有簇

簇交互作用的全局DA网络;
[0028]步骤3.2、所述DA网络保留细胞簇之间的直接交互作用,弱化间接交互作用;
[0029]步骤3.3、描绘发病机理的是DA网络中的异常交互模式,而不是简单的某一细胞簇的异常表达。
[0030]在本专利技术的较佳实施方式中,本专利技术提供一种数据分析模型,特别是涉及高通量质谱流式数据的细胞亚群间的网络分析算法。
[0031]本专利技术开发了SCANCell分析方法,可以将隐藏在高维质谱流式数据中的可用信息
转化为细胞簇之间的DA网络的拓扑结构。DA网络表征了免疫细胞簇间直接交互作用的强度,弱化了间接交互的干扰,这使得SCANCell能够在DA网络拓扑结构层面上定量识别疾病特异性异常交互模式。SCANCell通过考虑细胞簇的异常交互模式,为疾病的发病机制提供了新的理解角度。利用SCANCell分析SLE在整个疾病谱中细胞簇间的交互作用,本专利技术发现,与平稳期SLE患者相比,活动期SLE患者揭示了CD8
+
T细胞的簇间交互作用减轻。本专利技术提供了一个工具,用于深入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于质谱流式数据挖掘的网络分析方法,其特征在于,样本分组和细胞簇间DA网络的构建。2.如权利要求1所述的用于质谱流式数据挖掘的网络分析方法,其特征在于,利用从样本中提取的特征将所有样本分为不同的子组,并为每个子组构建所有细胞簇的DA网络。3.如权利要求1所述的用于质谱流式数据挖掘的网络分析方法,其特征在于,将所有样本的细胞划分为不同的细胞簇,同时提取簇中相应的细胞丰度直方图作为每个样本的特征。4.如权利要求1所述的用于质谱流式数据挖掘的网络分析方法,其特征在于,利用部分互信息量化细胞簇间的交互作用强度。5.如权利要求2所述的用于质谱流式数据挖掘的网络分析方法,其特征在于,所述DA网络,每个节点代表一个细胞簇,每条边表示两个细胞簇之间的交互作用,边的权重表示交互强度。6.如权利要求2所述的用于质谱流式数据挖掘的网络分析方法,其特征在于,所述DA网络由Cytoscape软件可视化。7.如权利要求1所述的用于质谱流式数据挖掘的网络分析方法,其特征在于,包括如下步骤:步骤1、细胞聚类;步骤2、样本分组;步骤3、DA网络的构建。8.如权利要求7所述的用于质谱流式数据挖掘的网络分析方法,其特征在于,所述步骤1包括如下步骤:步骤1.1、所有的SLE数据都被一个反双曲正弦(arcs...

【专利技术属性】
技术研发人员:丁显廷刘晓张璐璐朱大为
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1