【技术实现步骤摘要】
基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法及应用
[0001]本专利技术涉及生物信息学的
,更具体地,涉及基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法及应用。
技术介绍
[0002]在多细胞生物体中,细胞通讯协调各种细胞类型的活动,进而形成组织、器官和系统,并进一步完成各种生物功能。细胞通讯对于复杂的机体过程也是必不可少的,例如,免疫反应、生长以及在健康或疾病条件下的动态平衡。为了解每种细胞类型在其组织中的生物学功能,我们需要了解各类细胞传递的蛋白质信息。
[0003]单细胞测序技术能准确定量一个单细胞核中基因拷贝数目。由于癌细胞中基因组部分被删除,或者扩增,从而引起关键基因的缺失,或者表达过量,干扰正常细胞生长,因此利用这种方法就能分析基因拷贝数目,从而在癌症诊断上有着广泛的应用。单细胞测序往往能够提供大量的基因数据,如何筛选出细胞之间关键的相互关系有助于揭示通讯细胞间的调控机制,提高研究人员对组织在稳态中的功能以及在疾病变化中的预测准确性。在CN202011620086.X一种细胞通讯分析方法及系统公开了通过细胞通讯预测和配体
‑
靶基因调控预测;细胞通讯预测包括配受体对表达丰度分析、配受体对数目分析、显著富集配受体对数目分析和细胞交互网络图构建;配体
‑
靶基因调控预测包括配体活性分析和配体
‑
靶基因调控潜力分析来描述细胞间的关联关系。虽然该专利的细胞通讯分析过程较为高效、全面。但是,该方法性能较低,未能将
【技术保护点】
【技术特征摘要】
1.一种基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法,其特征在于,步骤包括:S1.对配体和受体的序列进行生物特征提取,使用极限梯度算法选择每个配体
‑
受体对的生物特征;S2.采用梯度提升算法LRI
‑
CatBoost,根据配体
‑
受体对的生物特征对其进行分类;S3.采用基于自然梯度提升模型LRI
‑
NGBoost,根据配体
‑
受体对的生物特征对其进行分类;S4.采用深度森林算法,将配体
‑
受体的生物特征分为正类和负类,分别计算并选择具有较大概率的类别并作为最终类别;S5.对过滤已知及预测的配体
‑
受体相互作用数据进行过滤;S6.根据过滤后的的配体
‑
受体相互作用、单细胞测序数据和评分方法进行计算得到最终的细胞通讯强度。2.根据权利要求1所述基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法,其特征在于,所述生物特征包括400维的monoMono、8000维的monoDi、8000维的diMono、147维的CTD及80维的PseudoAAC。3.根据权利要求1所述基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法,其特征在于,所述极限梯度算法为:其中,i为第i个样本,I
L
表示左侧节点空间中的样本数,g
i
为一阶偏导数,h
i
为二阶偏导数,λ和γ表示正则化参数。4.根据权利要求1所述基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法,其特征在于,梯度提升算法LRI
‑
CatBoost分类步骤包括:S21.使用自上而下的贪心算法来进行决策树归纳,每个决策规则r由一个特征i∈{1,..,l}和一个阈值v∈R组成,在树的每一层,决策规则r将k个不相交的集合分割成2个不相交的子集,对于一个具有k'级的完整二叉树k=2
k
′
,一组特征向量X∈R被分成两个完全独立的子集(X
L
和X
R
),对于每个x∈X,LRI
‑
CatBoost根据这两个子集来确定其类别:S22.当给定一个集合和一个目标函数t:R
l
→
R,分割规则定义为:其中M用于评估X1,..,X
k
上的分割规则r的最优性;S23.得到预测模型M
i,j
,其中M
i,j
(i)表示基于排列σ
r
中前j个样本的第i个样本的结果,在每次迭代t中,从{σ1,...,σ
S
}构建一棵树T
t
并...
【专利技术属性】
技术研发人员:彭利红,刘龙龙,王钊,周立前,
申请(专利权)人:湖南工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。