基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法及应用技术

技术编号:36603657 阅读:15 留言:0更新日期:2023-02-04 18:22
本发明专利技术公开了一种基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法及应用,在提取配体和受体生物特征的基础上,设计极限梯度提升算法选择配体

【技术实现步骤摘要】
基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法及应用


[0001]本专利技术涉及生物信息学的
,更具体地,涉及基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法及应用。

技术介绍

[0002]在多细胞生物体中,细胞通讯协调各种细胞类型的活动,进而形成组织、器官和系统,并进一步完成各种生物功能。细胞通讯对于复杂的机体过程也是必不可少的,例如,免疫反应、生长以及在健康或疾病条件下的动态平衡。为了解每种细胞类型在其组织中的生物学功能,我们需要了解各类细胞传递的蛋白质信息。
[0003]单细胞测序技术能准确定量一个单细胞核中基因拷贝数目。由于癌细胞中基因组部分被删除,或者扩增,从而引起关键基因的缺失,或者表达过量,干扰正常细胞生长,因此利用这种方法就能分析基因拷贝数目,从而在癌症诊断上有着广泛的应用。单细胞测序往往能够提供大量的基因数据,如何筛选出细胞之间关键的相互关系有助于揭示通讯细胞间的调控机制,提高研究人员对组织在稳态中的功能以及在疾病变化中的预测准确性。在CN202011620086.X一种细胞通讯分析方法及系统公开了通过细胞通讯预测和配体

靶基因调控预测;细胞通讯预测包括配受体对表达丰度分析、配受体对数目分析、显著富集配受体对数目分析和细胞交互网络图构建;配体

靶基因调控预测包括配体活性分析和配体

靶基因调控潜力分析来描述细胞间的关联关系。虽然该专利的细胞通讯分析过程较为高效、全面。但是,该方法性能较低,未能将预测结果可视化,同时缺乏对肿瘤微环境的分析,对于细胞内通讯的分泌配体和质膜受体之间的相互作用调节,即配体

受体相互作用来说,对配体

受体相互作用预测的准确性仍有一定的限制。

技术实现思路

[0004]本专利技术要解决的技术问题是针对现有由配体

受体相互作用介导的细胞通讯预测准确性不足、有待提高的问题,提供一种基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法。
[0005]本专利技术的另一技术问题是提供基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法的应用。
[0006]本专利技术的目的通过以下技术方案予以实现:
[0007]一种基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法,步骤包括:
[0008]S1.对配体和受体的序列进行生物特征提取,使用极限梯度算法选择每个配体

受体对的生物特征;
[0009]S2.采用梯度提升算法LRI

CatBoost,根据配体

受体对的生物特征对其进行分类;
[0010]S3.采用基于自然梯度提升模型LRI

NGBoost,根据配体

受体对的生物特征对其进行分类;
[0011]S4.采用深度森林算法,将配体

受体的生物特征分为正类和负类,分别计算并选择具有较大概率的类别并作为最终类别;
[0012]S5.对过滤已知及预测的配体

受体相互作用数据进行过滤;
[0013]S6.根据过滤后的的配体

受体相互作用、单细胞测序数据和评分方法进行计算得到最终的细胞通讯强度。
[0014]进一步地,所述生物特征包括400维的monoMono、8000维的monoDi、8000维的diMono、147维的CTD及80维的PseudoAAC。
[0015]进一步地,所述极限梯度算法为:
[0016][0017]其中,i为第i个样本,I
L
表示左侧节点空间中的样本数,g
i
为一阶偏导数,h
i
为二阶偏导数,λ和γ表示正则化参数。
[0018]进一步地,梯度提升算法LRI

CatBoost分类步骤包括:
[0019]S21.使用自上而下的贪心算法以实现对称决策树,每个决策规则r由一个特征i∈{1,..,l}和一个阈值v∈R组成,在树的每一层,决策规则r将k个不相交的集合分割成2k个不相交的子集,对于一个具有k'级的完整二叉树k=2
k

,一组特征向量X∈R被分成两个完全独立的子集(X
L
和X
R
),对于每个x∈X,LRI

CatBoost根据这两个子集来确定其类别:
[0020][0021]S22.当给定一个集合和一个目标函数t:R
l

R,分割规则定义为:
[0022][0023]其中M用于评估X1,..,X
k
上的分割规则r的最优性;
[0024]S23.得到预测模型M
i,j
,其中M
i,j
(i)表示基于排列σ
r
中前j个样本的第i个样本的结果,在每次迭代t中,从{σ1,...,σ
S
}构建一棵树T
t
并计算其梯度:
[0025][0026]S24.计算每个样本i的梯度grad
r,σ(i)
‑1(i),当所有可能的作用对都被预测后,样本i的叶子值通过计算之前与样本i属于同一叶子的样本的梯度grad
r,σ(i)
‑1(i)的平均值得出,建立树状结构T
t
后,对未知的配体

受体对进行分类。
[0027]进一步地,M可以定义为:
[0028][0029]其中表示关于X
i
中样本的目标分数集合。
[0030]进一步地,LRI

NGBoost模型由三部分组成:基本学习器、参数概率分布和预测规则。对于一个样本x,LRI

NGBoost通过条件分布P
θ
预测其标签y,其中参数θ是由初始θ
(0)
和M个基础分类器输出的组合实现的。对于参数为μ和logσ的正态分布,每个阶段都有两个基础分类器和因此
[0031]进一步地,对于一个样本x,LRI

NGBoost通过条件分布P
θ
预测其标签y,其中参数θ是由初始θ
(0)
和M个基础分类器输出的组合实现的,对于参数为μ和logσ的正态分布,每个阶段都有两个基础分类器和和预测的输出是由阶段性的比例系数p
(m)
和学习率η来评估的,其中缩放因子ρ
(m)
是一个单一的标量:
[0032][0033]进一步地,选择随机森林和额外树作为基分类器,对于一个配体

受体相互作用特征,每个预测器计算每层中对应于正类和负类的特征样本的比率,从所有预测器得到的类别概率产生一个类别向量,该向量与原始的配体
...

【技术保护点】

【技术特征摘要】
1.一种基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法,其特征在于,步骤包括:S1.对配体和受体的序列进行生物特征提取,使用极限梯度算法选择每个配体

受体对的生物特征;S2.采用梯度提升算法LRI

CatBoost,根据配体

受体对的生物特征对其进行分类;S3.采用基于自然梯度提升模型LRI

NGBoost,根据配体

受体对的生物特征对其进行分类;S4.采用深度森林算法,将配体

受体的生物特征分为正类和负类,分别计算并选择具有较大概率的类别并作为最终类别;S5.对过滤已知及预测的配体

受体相互作用数据进行过滤;S6.根据过滤后的的配体

受体相互作用、单细胞测序数据和评分方法进行计算得到最终的细胞通讯强度。2.根据权利要求1所述基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法,其特征在于,所述生物特征包括400维的monoMono、8000维的monoDi、8000维的diMono、147维的CTD及80维的PseudoAAC。3.根据权利要求1所述基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法,其特征在于,所述极限梯度算法为:其中,i为第i个样本,I
L
表示左侧节点空间中的样本数,g
i
为一阶偏导数,h
i
为二阶偏导数,λ和γ表示正则化参数。4.根据权利要求1所述基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法,其特征在于,梯度提升算法LRI

CatBoost分类步骤包括:S21.使用自上而下的贪心算法来进行决策树归纳,每个决策规则r由一个特征i∈{1,..,l}和一个阈值v∈R组成,在树的每一层,决策规则r将k个不相交的集合分割成2个不相交的子集,对于一个具有k'级的完整二叉树k=2
k

,一组特征向量X∈R被分成两个完全独立的子集(X
L
和X
R
),对于每个x∈X,LRI

CatBoost根据这两个子集来确定其类别:S22.当给定一个集合和一个目标函数t:R
l

R,分割规则定义为:其中M用于评估X1,..,X
k
上的分割规则r的最优性;S23.得到预测模型M
i,j
,其中M
i,j
(i)表示基于排列σ
r
中前j个样本的第i个样本的结果,在每次迭代t中,从{σ1,...,σ
S
}构建一棵树T
t
并...

【专利技术属性】
技术研发人员:彭利红刘龙龙王钊周立前
申请(专利权)人:湖南工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1