当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于冷冻电镜数据构建单颗粒水平的能量曲面的方法技术

技术编号:33700528 阅读:13 留言:0更新日期:2022-06-06 08:08
本发明专利技术公开了一种基于冷冻电镜数据构建单颗粒水平的能量曲面的方法,属于数据科学与生物学的交叉领域。本发明专利技术通过单颗粒数据的分组分类、三维电子密度图数据集的低维流形映射、单颗粒图像与其对应投影图像的相似程度计算、利用卷积神经网络的训练与预测得到单颗粒水平的能量曲面。本发明专利技术得到单颗粒水平能量曲面,可以直观反映生物分子构象分布,扩展了冷冻电镜数据多构象分析的方式,提高了数据处理结果对高噪声的鲁棒性。结果对高噪声的鲁棒性。结果对高噪声的鲁棒性。

【技术实现步骤摘要】
一种基于冷冻电镜数据构建单颗粒水平的能量曲面的方法


[0001]本专利技术提供一种设计机器学习算法通过冷冻电镜数据构建单颗粒水平的能量曲面的方法,属于数据科学与生物学的交叉领域。

技术介绍

[0002]冷冻电子显微镜技术是解析生物大分子及复合物结构的重要手段之一。纯化后的蛋白通过快速冷冻,分散在一层薄薄的冰层中,在电子显微镜下进行数据采集,得到各个单颗粒的二维投影,然后通过三维重构,得到三维结构的电子密度图。该技术可以在接近于天然的生理状态下,解析生物分子的高分辨结构,有助于研究复杂蛋白机器的工作机制。
[0003]生物分子通常具有内禀的柔性,所以生物分子的动态结构变化以及构象的异质性,一直是结构生物学的研究重点之一。在晶体状态下,生物分子的结构变化被晶格约束,一般只提供一个静态的结构和有限的动力学参数。冷冻电镜相比晶体学方法的优势在于可以捕捉生物分子在溶液中的各种状态,并记录不同构象下不同角度的投影。因此,冷冻电镜数据为生物分子的多构象解析提供了基础。在冷冻电镜数据处理领域中,现有的一些算法通过聚类分析、极大似然分析等方法对多构象进行分类,但是,生物分子组分和构象的变化差异还需要通过其他技术来检验其合理性。

技术实现思路

[0004]本专利技术的目的是提供一种通过冷冻电镜数据构建单颗粒水平的能量曲面的方法,用以解决生物分子构象分布的高精度描述问题。
[0005]本专利技术的方法包括如下步骤:一种基于冷冻电镜数据构建单颗粒水平的能量曲面的方法,如图1所示,其步骤包括:A. 将冷冻电镜图像数据分成若干组单颗粒图像,对每组单颗粒图像分别进行三维分类,重建生成一系列三维电子密度图数据集;B. 采用深度流形学习算法映射出三维电子密度图数据集的低维流形嵌入,实现方法为:B1. 利用深度自编码网络提取每个三维电子密度图的结构细节特征;B2. 通过流形学习处理三维电子密度图数据集及其细节特征,得到每个三维电子密度图的低维流形坐标;C. 对于每个单颗粒图像(是单颗粒图像指标,是像素点指标),计算其与三维电子密度图对应角度投影图像的相似程度,实现方法为:C1. 取出每个单颗粒图像的角度信息,得到三维电子密度图在该角度上的投影图像;C2. 单颗粒图像与其对应的投影图像之间相似程度 的具体表达式定义为:
式中,与分别表示单颗粒图像与其对应的投影图像的像素平均值。该相似程度 的取值范围为[0,1], 越大表示该单颗粒图像与其对应的投影图像 越相似。对于每个单颗粒图像,计算单颗粒图像 与对应的投影图像的相似程度;D. 设计卷积神经网络,使用整个单颗粒数据集对卷积神经网络进行训练,即卷积神经网络用于学习单颗粒图像数据 的对应三维电子密度图的低维流形坐标,得到单颗粒图像的低维流形坐标映射,卷积神经网络的目标函数定义为相似程度加权的欧几里得距离:式中,权重是单颗粒图像 与对应的投影图像 的相似程度值,是低维流形坐标的维度指标。
[0006]E. 利用训练好的卷积神经网络预测每个单颗粒图像 在能量曲面上的坐标值,从而获得单颗粒水平的能量曲面。
[0007]作为一种优选方案,所述步骤B中,在低维流形映射运算之前,可以对三维电子密度图数据集进行相同阈值的低通滤波预处理,提高低维流形嵌入反映构象分布的鲁棒性,为卷积神经网络提供质量更高的回归标签。
[0008]作为一种优选方案,所述步骤B2中,可以应用效果较好的t

SNE或UMAP流形学习算法获取三维电子密度图数据集的低维流形嵌入,提高卷积神经网络的回归表现。
[0009]作为一种优选方案,所述步骤D中,为了考虑单颗粒图像与三维电子密度图对应角度投影图像的相似程度,卷积神经网络的设计也可以加入解码器,通过解码层的输出对三维电子密度图对应角度的投影图像进行回归,同时将目标函数定义为低维流形坐标之间距离与解码图像之间距离的加权求和。
[0010]本专利技术的技术效果如下:本专利技术提供一种基于冷冻电镜的单颗粒图像数据构建单颗粒水平的能量曲面的方法,通过单颗粒数据的分组分类、三维电子密度图数据集的低维流形映射、单颗粒图像与其对应投影图像的相似程度计算、卷积神经网络的训练与预测得到单颗粒水平的能量曲面。本专利技术利用卷积神经网络得到的颗粒水平的能量曲面,可以直观反映生物分子构象分布。本专利技术将冷冻电镜技术与卷积神经网络相互结合,对待研究生物分子的构象空间进行高精度的可视化,扩展了冷冻电镜数据多构象分析的方式,提高了数据处理结果对高噪声的鲁棒性。
附图说明
[0011]图1是本专利技术构建冷冻电镜单颗粒数据能量曲面的技术流程图。
[0012]图2是本专利技术卷积神经网络得到单颗粒能量曲面坐标的示意图。
[0013]图3是本专利技术具体实施例得到的能量曲面和构象分布分析的示意图。
具体实施方式
[0014]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中提供的样品图片和数值不限制本专利技术的范围。
[0015]参见图2,本专利技术将卷积神经网络用于研究某蛋白复杂的构象分布。
[0016]第一步,将该蛋白的冷冻电镜单颗粒数据分为若干组,分别进行三维分类,生成三维电子密度图数据集。该蛋白的单颗粒数据共有超过2,500,000个单颗粒图像,将这些单颗粒图像数据分成25组,每组包含约100,000个单颗粒图像,进行三维分类后,共生成250个三维电子密度图。
[0017]第二步,设计深度流形学习算法获取三维电子密度图数据集的低维流形嵌入。通过250个三维电子密度图输入用于提取特征的深度自编码网络,训练过程中,轮数设置为50轮,每批数据包含4个三维电子密度图,使用Adam优化器对该深度自编码网络参数进行迭代更新。训练完成后,使用解码层均方误差最小的深度自编码网络参数用于三维电子密度图数据集的特征提取。三维电子密度图的特征提取完成后,通过t

SNE流形学习算法对三维电子密度图数据集的低维流形嵌入进行映射,得到每个三维电子密度图的低维流形坐标,低维坐标要求尽可能保持高维数据的局部距离不变,低维坐标的维度设置为2,困惑度设置为30,最大迭代轮数设置为1000。
[0018]第三步,计算每个单颗粒图像与其三维电子密度图对应的投影图像的相似程度。即取出每个单颗粒图像的角度信息,得到三维电子密度图在该角度上的投影图像;将单颗粒图像与其对应的投影图像(是单颗粒图像指标,是像素点指标)之间相似程度,该相似程度的具体表达式定义为:式中,与分别表示单颗粒图像与其对应的投影图像的像素平均值。该相似程度 的取值范围为[0,1],越大表示该单颗粒图像与其对应的投影图像 越相似。对于每个单颗粒图像,计算其与对应的投影图像的相似程度 ;如果 取值为1则表示计算所用的单颗粒图像与其对应的投影图像完全相同,而如果 取值为0则表示计算所用的单颗粒图像 不含任何结构信息。一般单颗粒图像与其对应投影图像的相似程度 为介于0和1之间的数值,衡量两个图像之间相似程度的大小。
[0019]第四步,训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于冷冻电镜数据构建单颗粒水平的能量曲面的方法,其步骤包括:A. 将冷冻电镜图像数据分成若干组单颗粒图像,对每组单颗粒图像分别进行三维分类,重建生成一系列三维电子密度图数据集;B. 采用深度流形学习算法映射出三维电子密度图数据集的低维流形嵌入;C. 对于每个单颗粒图像,计算其与三维电子密度图对应角度投影图像的相似程度,是单颗粒图像指标,是像素点指标,实现方法为:C1. 取出每个单颗粒图像的角度信息,得到三维电子密度图在该角度上的投影图像;C2. 单颗粒图像与其对应的投影图像之间相似程度 的具体表达式定义为:式中,与 分别表示单颗粒图像与其对应的投影图像 的像素平均值;D. 使用整个单颗粒数据集对卷积神经网络进行训练,卷积神经网络用于学习单颗粒图像数据 的对应三维电子密度图的低维流形坐标,得到单颗粒图像的低维流形坐标映射,卷积神经网络的目标函数定义为相似程度加权的欧几里得距离:式中,权重是单颗粒图像 与对应的投影图像 的相似程度值; 是低维流形坐标的维度指标;E. 利用训练好的卷积神经网络预测每个单颗粒图像 在能量曲面上的坐标值,从而获得单颗粒水平...

【专利技术属性】
技术研发人员:韩旭吴赵龙毛有东欧阳颀
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1