当前位置: 首页 > 专利查询>浙江大学专利>正文

基于线粒体动态表型和深度学习的药物作用机制预测方法技术

技术编号:38010618 阅读:8 留言:0更新日期:2023-06-30 10:30
本发明专利技术提供了基于线粒体动态表型和深度学习的药物作用机制预测方法,包括S1:数据处理模块基于线粒体动态表型进行数据处理;包括单细胞分割、异常细胞剔除、单细胞时序匹配、数据生成和数据集划分;S2:训练模块进行数据预处理后,使用I3D网络加全局平均池化提取图像序列特征,再进行批归一化、全连接层输出和损失计算;S3:预测模块使用S2中训练好的I3D网络提取查询集和底库特征,再进行相似度计算和倒排检索。该方法结合了表征学习和度量学习来训练模型,使得同类样本在特征空间距离更近,不同类样本在特征空间距离更远,能捕获更多的线粒体特征,且更加快捷、高效可以应用于大规模的药物再利用或基于表型的药物筛选实验。的药物再利用或基于表型的药物筛选实验。的药物再利用或基于表型的药物筛选实验。

【技术实现步骤摘要】
基于线粒体动态表型和深度学习的药物作用机制预测方法


[0001]本专利技术涉及图像检索数据识别
,具体为基于线粒体动态表型和深度学习的药物作用机制预测方法。

技术介绍

[0002]线粒体在细胞生物学中占据重要地位,尤其是氧化磷酸化、中心碳代谢和细胞生长中间体的生物合成,它们还负责决定细胞功能和命运的其他几个基本过程。线粒体的动态特性,包括其融合、分裂和降解,对于这些功能至关重要。融合和裂变的相互作用给线粒体带来了广泛的益处,通过控制形态、内容交换、线粒体的公平遗传、维持高质量线粒体DNA以及分离受损线粒体进行降解而发挥作用。随着线粒体可视化技术的发展,许多成像方法在复杂的细胞环境中可视化线粒体的形态和功能,并已应用于药物发现领域。
[0003]线粒体形态、膜电位和氧化还原状态已被用高内涵方法来鉴定功能化合物或遗传扰动。然而,现有的研究往往只从图像中提取单个或少量的特征,或者简单地将图像分为两类或三类,导致丢失大量重要信息,不利于后续深入研究。
[0004]为了优化这些条件并尽可能增加信息量,可将时间维度添加到线粒体形态和线粒体膜电位这两个指标中,并使用基于图像的分析来研究线粒体对不同MOA(药物作用机制)药物的动态表型反应。一般预测MOA的研究中采用机器学习方法,但复杂案例中,同一MOA药物在不同实验下的动态表型差异较大,而不同MOA药物在同一实验下的动态表型又较为相近,这导致现有的机器学习方法无法充分区分线粒体表型。
[0005]因此需要一种可以能够充分区分线粒体表型且更加高效准确的基于线粒体动态表型和深度学习的药物作用机制预测方法。

技术实现思路

[0006]为避免现有技术存在的上述问题,本专利技术的目的在于提供基于线粒体动态表型和深度学习的药物作用机制预测方法。
[0007]为实现上述目的,本专利技术提供了如下技术方案:基于线粒体动态表型和深度学习的药物作用机制预测方法,包括以下步骤:S1:数据处理模块基于线粒体动态表型进行数据处理;包括单细胞分割、异常细胞剔除、单细胞时序匹配、数据生成和数据集划分;所述线粒体动态表型,是指使用模型提取的线粒体图像序列的特征向量;S2:训练模块进行数据预处理后,使用I3D网络加全局平均池化提取图像序列特征,再进行批归一化、全连接层输出和损失计算;S3:预测模块使用S2中训练好的I3D网络提取查询集query和底库gallery特征,再进行相似度计算和倒排检索。
[0008]本专利技术进一步设置为:步骤S1中所述线粒体图像序列,由1067种FDA批准的药物采集而来,每个药物采集一个序列,每个序列16个时间点,重复三次实验;每张图像由三个通
道组成,每个通道通过不同的激发波长单独采集;三个通道分别为细胞核、线粒体绿色荧光蛋白和线粒体膜电位。
[0009]本专利技术进一步设置为:步骤S1中所述单细胞分割,使用分水岭算法,首先在细胞核通道分割出细胞核,以细胞核为掩码在线粒体绿色荧光蛋白通道分割出细胞。
[0010]本专利技术进一步设置为:步骤S1中所述异常细胞剔除,综合考虑细胞核面积、细胞核灰度值和细胞面积的统计数据;具体为计算每个细胞核的面积和平均灰度值,统计所有细胞核的面积中值和灰度值的均值,将小于面积中值1/3的细胞核以及大于灰度值均值3倍的细胞核作为异常细胞核并剔除掉;将分割后的细胞核作为掩码再次使用分水岭算法分割w2中的细胞,计算每个细胞的面积,统计所有细胞的面积中值,将小于面积中值1/3的细胞作为异常细胞并剔除掉。
[0011]本专利技术进一步设置为:步骤S1中所述单细胞时序匹配,使用单细胞轮廓中心坐标对序列中每张图像的最近细胞进行匹配。
[0012]本专利技术进一步设置为:步骤S1中所述数据生成,使用平滑滤波器对细胞轮廓边缘做羽化处理,最后以细胞轮廓为掩码提取仅包含单细胞的区域。
[0013]本专利技术进一步设置为:步骤S1中所述数据集划分具体为,从每个MOA类别中的所有药物中随机挑选一个药物的所有样本组成查询集query,剩下的药物的所有样本以7:3的比例随机划分为训练集train和底库gallery。
[0014]本专利技术进一步设置为:步骤S2中所述数据预处理,包含以下步骤:1)对训练集进行空间维度的数据增强,包括随机旋转、随机调整大小、随机水平翻转和随机擦除;2)随机裁剪训练集内的图像大小到固定大小;3)将训练集内图像分别减去三通道的平均值;4)再将训练集内图像分别除以三通道的标准差。
[0015]本专利技术进一步设置为:步骤S2中所述损失计算,使用TriHard损失、Center损失和带标签平滑的Softmax损失进行计算。
[0016]本专利技术进一步设置为:步骤S3具体为,首先对特征进行归一化,再计算query和gallery之间的特征距离矩阵。预测模块使用S2中训练好的I3D网络提取分别提取query和gallery的特征,经批归一化层后计算query和gallery之间的特征距离矩阵,特征距离越近代表越相似;把gallery中距离最近的样本的药物作用机制(MOA)作为query的检索标签。
[0017]需要说明的是,本申请结合了重识别(ReID)的表征学习和度量学习方法来训练模型,使得同类样本在特征空间距离更近,不同类样本在特征空间距离更远,使用该方法得到的模型称之为MitoReID。
[0018]区分不同MOA药物的动态表型可以简单地认为是一个分类任务,但通常药物是由多种不同MOA组合而成,对于已有的FDA批准的药物,这些组合可以穷举出来,但对于未知化合物,其MOA组成很可能不在已知的组合之中,若仍作为分类任务则找不到对应的分类。此外,生物实验的可重复性很差,基于某一批实验数据学习的分类模型很可能不适用于另一批实验数据。
[0019]因此可以通过将上述问题建模为一个检索问题,模型是根据检索的结果优化特征而不是根据类别来优化特征,在预测时给定一个未知化合物的动态表型,从数据库中根据
某种距离度量算法找到最接近的药物的动态表型。
[0020]重识别(ReID)常用于行人重识别,其根据行人的图像特征,旨在不同的监控摄像头中找到同一个行人,是一个图像检索任务。在人脸识别失效的情况下,行人重识别是目前为止最好的解决方案。本申请将不同MOA药物的动态表型可以看做是不同的行人的特征;同一MOA的不同药物或同一药物的不同实验数据可以看做是不同的摄像头;根据未知化合物的动态表型从数据库中检索最接近的药物的MOA可以看做是从不同的监控摄像头中找到同一个行人。
[0021]ReID主要有两种类型的算法:基于表征学习和基于度量学习。IDE网络是经典的基于表征学习的ReID算法,其训练时跟普通的分类模型一样训练一个CNN分类网络,而在推断时去掉最后的全连接层,仅输出特征向量。其特征向量具有很好的聚类特性,可以使用欧氏距离或余弦距离来计算向量之间的相似度,这是学习特征相似性的一种间接方法。相对而言,基于度量学习的ReID方法直接从网络中学习特征相似性。其中最流行的方法是设计一个合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于线粒体动态表型和深度学习的药物作用机制预测方法,其特征在于,包括以下步骤:S1:数据处理模块基于线粒体动态表型进行数据处理;包括单细胞分割、异常细胞剔除、单细胞时序匹配、数据生成和数据集划分;所述线粒体动态表型,是指使用模型提取的线粒体图像序列的特征向量;S2:训练模块进行数据预处理后,使用I3D网络加全局平均池化提取图像序列特征,再进行批归一化、全连接层输出和损失计算;S3:预测模块使用S2中训练好的I3D网络提取查询集query和底库gallery特征,再进行相似度计算和倒排检索。2.根据权利要求1所述的基于线粒体动态表型和深度学习的药物作用机制预测方法,其特征在于,步骤S1中所述线粒体图像序列,由1067种FDA批准的药物采集而来,每个药物采集一个序列,每个序列16个时间点,重复三次实验;每张图像由三个通道组成,每个通道通过不同的激发波长单独采集;三个通道分别为细胞核、线粒体绿色荧光蛋白和线粒体膜电位。3.根据权利要求1所述的基于线粒体动态表型和深度学习的药物作用机制预测方法,其特征在于,步骤S1中所述单细胞分割,使用分水岭算法,首先在细胞核通道分割出细胞核,以细胞核为掩码在线粒体绿色荧光蛋白通道分割出细胞。4.根据权利要求1所述的基于线粒体动态表型和深度学习的药物作用机制预测方法,其特征在于,步骤S1中所述异常细胞剔除,综合考虑细胞核面积、细胞核灰度值和细胞面积的统计数据;具体为计算每个细胞核的面积和平均灰度值,统计所有细胞核的面积中值和灰度值的均值,将小于面积中值1/3的细胞核以及大于灰度值均值3倍的细胞核作为异常细胞核并剔除掉;将分割后的细胞核作为掩码再次使用分水岭算法分割w2中的细胞,计算每个细胞的面积,统计所有细胞的面积中值,将小于面积中值1/3的细胞作为异常细胞并剔除掉。5.根据权利要求1所述...

【专利技术属性】
技术研发人员:王毅余敏
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1