一种统一细胞类型和状态特征的细胞相似性度量方法技术

技术编号:34772045 阅读:28 留言:0更新日期:2022-08-31 19:35
本申请涉及一种统一细胞类型和状态特征的细胞相似性度量方法,它包括如下步骤:S1:选择特征基因;S2:计算细胞类型差异;S3:计算细胞状态差异;S4:计算细胞间的距离;S5:根据步骤S4中得到的细胞间的距离构建距离矩阵W

【技术实现步骤摘要】
一种统一细胞类型和状态特征的细胞相似性度量方法


[0001]本申请涉及系统生物学领域,具体涉及一种统一细胞类型和状态特征的细胞相似性度量方法。

技术介绍

[0002]细胞是生物学中构成生物体的基本单位,经常被称为生命的积木。多细胞物种包括大量具有不同功能的细胞类型,将细胞分为不同类型为理解组织的结构和功能铺平了道路。随着生物技术的进步,来自scRNA

seq的数据是发现新的假定细胞类型和细胞状态的最新信息来源之一。与传统的bulk测序相比,scRNA

seq分析能够在单细胞分辨率快速确定成千上万个单个细胞的精确基因表达模式,揭示细胞身份和功能,为我们理解细胞的生态提供了新的视角,一个典型应用便是研究肿瘤内异质性。肿瘤组织包括肿瘤细胞与肿瘤基质细胞(包括基质成纤维细胞、内皮细胞和免疫细胞),它们共同组成了肿瘤微环境。肿瘤微环境的动态相互作用对于刺激肿瘤细胞的异质性、克隆进化至关重要。而肿瘤内异质性是肿瘤治疗和患者生存率的关键决定因素,这种异质性包括时间异质性(Temporal heterogeneity)和空间异质性(Spatial heterogeneity)。肿瘤的时间异质性主要表现为肿瘤在自然或者人为干预下随时间演化的多克隆特性,表现出明显的动态性。肿瘤的空间异质性是指在原发肿瘤内或原发肿瘤与转移瘤之间,遗传信息和细胞形态等特征会存在差异。肿瘤内异质性是肿瘤耐药性形成的主要原因并严重影响了个体化肿瘤治疗的效果和患者的预后。基于单细胞转录组数据的聚类提供了一种从异质系统中区分和识别肿瘤细胞及其状态的直观方法,为揭示和理解肿瘤内异质性铺平了道路。
[0003]尽管在scRNA

seq数据中对细胞类型的识别已经付出了巨大的努力,但传统算法的一个关键限制是不能明确定义或区分不同细胞类型和细胞状态,它们通常都将这两个概念视为“同义词”,即它们都是具有某种基因表达模式的、具有生物学意义的细胞群。
[0004]事实上,细胞的类型和状态所涉及的基因的表达模式并不相同。通常,控制细胞类型的谱系特征基因具有on/off的表达模式,其表达量大小变化不大。而决定细胞状态的基因,表达量会随着状态的改变呈梯度变化。因此,有必要设计一种能够区分两种表达模式的相似性度量方法。

技术实现思路

[0005]本专利技术的目的在于,提供一种统一细胞类型和状态特征的细胞相似性度量方法,能够避免表达矩阵中存在大量零表达的影响,有效减少单细胞数据固有的噪声的影响,可应用于单细胞数据集的细胞鉴定和衡量肿瘤内异质性分析。
[0006]本专利技术采取的技术方案是:一种统一细胞类型和状态特征的细胞相似性度量方法,包括如下步骤:
[0007]S1:使用平均

离散图选择特征基因,其具体过程为:输入标准化后的基因表达矩阵,计算每个基因在每个细胞中的平均表达和离散度,并将基因分到nbin个箱子中;每个箱
子内,计算所有基因的z

scores分数,选择z

scores大于1的基因为特征基因;
[0008]S2:利用S1得到的特征基因,计算细胞类型差异,对于细胞i和细胞j,细胞类型差异的计算公式为:
[0009][0010]其中,G
i
和G
j
为细胞非零表达基因集合,|I|=|G
i
∩G
j
|,x
.i
和x
.j
分别为细胞i、j的特征基因表达量向量,‖x
.i
‖和‖x
.j
‖为向量的模;
[0011]S3:利用S1得到的特征基因,计算细胞状态差异,对于细胞i和细胞j,细胞状态差异的计算公式为:
[0012][0013]其中,‖x
Ii

x
Ij
‖1为细胞i、j在基因集I上的表达差异的L1范数,‖x
Ii

x
Ij
‖2为细胞i、j在特征基因集I上的表达差异的L2范数;
[0014]S4:计算细胞间的距离,对于细胞i和细胞j,细胞之间的距离计算公式为:
[0015][0016]其中,α为平衡系数;
[0017]S5:将平衡系数α以固定步长,从[0,1]的范围内,根据S4得到的细胞间的距离生成数个距离矩阵,所述距离矩阵为对角矩阵;利用最近邻方法构建每个距离矩阵对应的邻接矩阵W
α
,具体表达式为:
[0018][0019]其中,w
ij
代表邻接矩阵W
α
中第i行第j列的值,KNN(x
i
)和KNN(x
j
)分别代表细胞x
i
和x
j
的邻接点,x
ij
代表细胞i和细胞j之间的距离,Inf表示无穷大;
[0020]S6:使用谱聚类,输入邻接矩阵W
final
,完成聚类过程;邻接矩阵W
final
的具体表达式如下:
[0021]W
final
=∑W
α
[0022]进一步地,还包括步骤S7:对两种肿瘤亚型中包含的数十位患者分别计算恶性细胞细胞间距离的四分位距,并作为异质性评分ITH
UCRSI
;具体方法为,对步骤S2和S3计算出的细胞类型差异和细胞状态差异分别求取细胞间距离的四分位距,得到专注于细胞类型的细胞距离异质性评分和专注于细胞状态的细胞距离异质性评分分别对两种肿瘤亚型患者的异质性评分开展双侧非配对Wilcoxon检验,根据检验结果比较两种亚型对应恶性细胞之间差异。
[0023]进一步地,步骤S1中获取标准化后的基因表达矩阵的具体方法为:
[0024]S101:从GEO数据库,即Gene Expression Omnibus数据库中下载基因表达数据;
[0025]S102:使用ComBat

seq算法移除不同患者间的批次效应,其使用负二项回归模型来估计计数矩阵中批次效应,可保留计数数据的整数性质;
[0026]S103:使用Seurat提供的LogNormalize方法标准化表达矩阵,消除细胞文库大小的差异性。
[0027]进一步地,步骤S1中的基因分类方法为:计算每个基因在每个细胞中的平均表达和离散度,根据平均表达将基因平均分为nbin个箱子,nbin的取值为两倍目标类簇数量。
[0028]本专利技术的有益效果在于:本专利技术有效挖掘了基因表达模式的内在特性,将细胞类型的差异和细胞状态的差异有效的结合在一起;与现有的技术相比,能够避免表达矩阵中存在大量零表达的影响,有效减少单细胞数据固有的噪声的影响;在肿瘤数据上,可以根据计算出的距离矩阵,衡量不同的肿瘤组织或样本之间的差异是更多的体现在细胞类型还是细胞状态上,为生物学家进行生物学研究提供可靠依据。...

【技术保护点】

【技术特征摘要】
1.一种统一细胞类型和状态特征的细胞相似性度量方法,其特征在于,包括如下步骤:S1:使用平均

离散图选择特征基因,其具体过程为:输入标准化后的基因表达矩阵,计算每个基因在每个细胞中的平均表达和离散度,并将基因分到nbin个箱子中;每个箱子内,计算所有基因的z

scores分数,选择z

scores大于1的基因为特征基因;S2:利用S1得到的特征基因,计算细胞类型差异,对于细胞i和细胞j,细胞类型差异的计算公式为:其中,G
i
和G
j
为细胞非零表达基因集合,|I|=|G
i
∩G
j
|,x
.i
和x
.j
分别为细胞i、j的特征基因表达量向量,‖x
.i
‖和‖x
.j
‖为向量的模;S3:利用S1得到的特征基因,计算细胞状态差异,对于细胞i和细胞j,细胞状态差异的计算公式为:其中,‖x
Ii

x
Ij
‖1为细胞i、j在基因集I上的表达差异的L1范数,‖x
Ii

x
Ij
‖2为细胞i、j在特征基因集I上的表达差异的L2范数;S4:计算细胞间的距离,对于细胞i和细胞j,细胞之间的距离计算公式为:其中,α为平衡系数;S5:将平衡系数α以固定步长,从[0,1]的范围内,根据S4得到的细胞间的距离生成数个距离矩阵,所述距离矩阵为对角矩阵;利用最近邻方法构建每个距离矩阵对应的邻接矩阵W
α
,具体表达式为:其中,w
ij
代表邻接矩阵W
α
中第i行第j列的值,KNN(x
i
)和KNN...

【专利技术属性】
技术研发人员:李雄林扬凯孟旭周娟
申请(专利权)人:华东交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1