基于免疫荧光图像的蛋白质的定量分析模型和建立方法技术

技术编号:31080949 阅读:19 留言:0更新日期:2021-12-01 11:56
本发明专利技术涉及基于免疫荧光图像的蛋白质的定量分析模型和建立方法,涉及生物信息技术领域。建立方法:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;采用深度学习模型进行特征编码,将分布在单个亚细胞位置中的图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的图像的深度特征所代表的模式为混合模式;采用Linear、R

【技术实现步骤摘要】
基于免疫荧光图像的蛋白质的定量分析模型和建立方法


[0001]本专利技术涉及生物信息
,特别是涉及基于免疫荧光图像的蛋白质的定量分析模型 和建立方法。

技术介绍

[0002]蛋白质是一种重要的生物大分子,分布在不同的细胞和细胞器中执行着各种各样的功能, 以确保生物体正常的生命活动。此外,在人体细胞中,大约有一半的蛋白质分布在两个或以 上的亚细胞位置。因此,快速准确地分析这些蛋白质的亚细胞位置的分布量,对探究蛋白质 功能、研究细胞的代谢情况都有重要意义。
[0003]蛋白质的免疫荧光图像对比蛋白质序列和免疫组化图像,直观地反映出特定蛋白质在细 胞中的分布情况,包含了丰富的蛋白质位置模式信息,已广泛应用于蛋白质亚细胞位置的定 性分析。然而,蛋白质的定量分析仍需要实验室仪器量化检测的方法,这种方法成本较高且 效率低。因此,应用生物图像信息学的相关知识,使用计算机技术定量地评估荧光图像中蛋 白质的分布比例,有利于提高定量分析效率,对蛋白质生理功能的研究具有重要意义。
[0004]目前,由于带有定量标注的蛋白质免疫荧光图像数据集的稀缺,针对免疫荧光图像的蛋 白质定量分析的方法研究不多,目前只有三种专门设计用来评估对免疫荧光图像的蛋白质分 布比例的模型:(1)有监督的线性模式分解模型(Peng,T.,et al.(2010)Determining thedistribution of probes between different subcellular locations through automated unmixing ofsubcellular patterns,Proceedings of the National Academy of Sciences,107,2944

2949.)。该模型 利用一组描述蛋白质荧光点的形状和尺寸的形态学特征和描述荧光对象位置关系的特征 ——SOF1特征,并通过聚类和统计频率的方式得到一组代表蛋白质图像的模式数据,其中单 标签数据的模式称为基模式、多标签模式则称为混合模式。最后,利用有监督的线性分解方 法分解混合模式,定量地预测多标签蛋白质的亚细胞分布比例。(2)无监督的模式分解模型 (Coelho,L.P.,Peng,T.and Murphy,R.F.(2010)Quantifying the distribution of probes betweensubcellular locations using unsupervised pattern unmixing,Bioinformatics,26,7

12.)。同样利用 SOF1特征得到的蛋白质图像模式,分别使用基追踪和LDA模型无监督地分解混合模式,评 估单个细胞荧光图像的蛋白质分布比例。(3)可变权重的支持向量机(VW

SVM)的非线性 回归模型(Yang,Q.,et al.(2016)Multiplex protein pattern unmixing using a non

linearvariable

weighted support vector machine as optimized by a particle swarm optimization algorithm, Talanta,147,609

614.)。利用SOF1特征和由此得到的一组频率数据构成图像的模式,然后使 用可变权重的支持向量机(VW

SVM)方法,对带有定量标注的混合模式数据进行非线性回 归拟合,并用粒子群算法优化模型参数。以上三种模型都是基于蛋白质荧光点特征进行定量 分析的,从他们的预测结果可以看出,前两种模式分解模型的预测精度与实际应用还有一定 差距,而VW

SVM模
型需要使用大量定量标注数据训练,算法普适性很低。

技术实现思路

[0005]针对上述问题,本专利技术提供一种基于免疫荧光图像的蛋白质的定量分析模型,适用于多 种不含定量标注的蛋白质免疫荧光图像数据集,应用条件灵活且预测精度较高,适用于大规 模的基于蛋白质免疫荧光图像的蛋白质定量预测。
[0006]为了达到上述目的,本专利技术提供了一种基于免疫荧光图像的蛋白质的定量分析模型,通 过以下方法建立:
[0007]构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;
[0008]特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深 度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的 蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质 免疫荧光图像的深度特征所代表的模式为混合模式;
[0009]模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分 解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得 到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;
[0010]模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的 分解方法,构建得到定量分解模型,即得。
[0011]采用上述定量分析模型,可以无需使用含定量标注的蛋白质免疫荧光图像数据进行训练, 因此可扩展应用于大部分只含有定性标注的蛋白质免疫荧光图像数据集的定量分析上,具有 较强的普适性和灵活性。
[0012]在其中一个实施例中,所述构造数据集步骤中,所述数据集包括真实数据集和合成数据 集;
[0013]所述真实数据集由含有真实浓度标注的蛋白质免疫荧光图像数据构成;
[0014]所述合成数据集由人类蛋白质图谱数据库中的免疫荧光数据集,基于像素的图像融合方 法,生成的含有多亚细胞位置混合模式且带有各位置上定量比例标注的蛋白质免疫荧光图像 数据构成。
[0015]上述合成数据集表现更多样、标签种类更多,且带有定量标注,和所述真实数据集一起, 其定量标注能作为评估模型预测性能的金标准。
[0016]在其中一个实施例中,所述特征编码步骤中,所述基模式的得到方式为使用所述深度学 习模型对分布在单个亚细胞位置中的蛋白质免疫荧光图像进行特征编码,所述混合模式的得 到方式为使用所述深度学习模型对分布在多个亚细胞位置中的蛋白质免疫荧光图像进行特征 编码。
[0017]在其中一个实施例中,所述特征编码步骤中,所述特征编码步骤中,所述深度学习模型 为基于DenseNet再训练得到的卷积神经网络模型。
[0018]采用上述模型,能代替荧光特征作为蛋白质的分布模式,因为卷积神经网络模型是目前 对蛋白质荧光图像分类表现最佳的模型,所以能更好地提取图像中蛋白质的分布细节特征, 有助于提高定量分析的评估精度。
[0019]在其中一个实施例中,所述线性分解方法的表达式为:
[0020]其中,x为样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,通过以下方法建立:构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为混合模式;模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的分解方法,构建得到定量分解模型,即得。2.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述构造数据集步骤中,所述数据集包括真实数据集和合成数据集;所述真实数据集由含有真实浓度标注的蛋白质免疫荧光图像数据构成;所述合成数据集由人类蛋白质图谱数据库中的免疫荧光数据集,基于像素的图像融合方法,生成的含有多亚细胞位置混合模式且带有各位置上定量比例标注的蛋白质免疫荧光图像数据构成。3.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述特征编码步骤中,所述基模式的得到方式为使用所述深度学习模型对分布在单个亚细胞位置中的蛋白质免疫荧光图像进行特征编码,所述混合模式的得到方式为使用所述深度学习模型对分布在多个亚细胞位置中的蛋白质免疫荧光图像进行特征编码。4.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述特征编码步骤中,所述深度学习模型为基于DenseNet再训练得到的卷积神经网络模型。5.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述线性分解方法的表达式为:其中,x为样本的模式向量,f为对应的基模式向量,α=[α1,α2,...,α
U
]为预测的混合系数对应蛋白质的分布比例,U为模式的数量,e为误差项,通过最小化误差项来求解混合分数α;所述稳定非负矩阵分解方法的表达式为:其中,矩阵A=[α1,α2,...,α
N
]表示混合系数矩阵,F=[f1,f2,...,f
U
]表示基模式矩阵,
R=[r1,r2,...,r
N
]表示非线性稀疏矩阵,X=[x1,x2,...,x...

【专利技术属性】
技术研发人员:徐莹莹薛敏琪
申请(专利权)人:南方医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1