【技术实现步骤摘要】
以给定蛋白质主链结构为目标的氨基酸序列设计方法
[0001]本专利技术属于蛋白质设计领域,具体涉及以给定蛋白质主链结构为目标的氨基酸序列设计方法,即根据预设的目标主链结构,自动设计蛋白质的全部或部分氨基酸序列。该方法使用预训练的深度学习神经网络编码器,将单个中心残基所处的三维局部结构环境编码为一个实值向量,同时预训练编码器
‑
解码器,使用解码器将该向量解码为中心残基的侧链类型。该编码器的输入包含了与中心残基空间相邻的其他残基的侧链类型信息。在序列设计中,我们从任意设置的初始序列出发,将该编码器/解码器应用于不同的中心残基,根据对中心残基在当前序列背景下的局部环境解码输出更新中心残基的侧链类型;该过程反复迭代,最终产生氨基酸序列,作为设计结果。
技术介绍
[0002]
技术介绍
1:给定主链结构自动设计氨基酸序列。
[0003]该技术以使用者给定的蛋白质主链结构为目标,自动选择氨基酸序列,使得具有该氨基酸序列的分子能自发稳定地折叠成目标三维蛋白质构象。最早报道成功自动设计氨基酸序列的文献为Dahiyat等 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.以给定蛋白质主链结构为目标的氨基酸序列设计方法,其特征在于,所述方法包括:a.用深度学习神经网络编码器将单个中心氨基酸残基的局部环境编码为一实值向量;b.用神经网络解码器对所述实值向量进行解码获得中心残基的侧链类型;c.用已知蛋白质序列结构数据对编码器
‑
解码器进行预训练,训练的目标为恢复中心残基的天然侧链类型;d.从给定蛋白质主链结构出发,将所述预训练得到的编码器分别应用于不同中心残基,根据解码结果反复迭代更新中心残基的侧链类型,获得设计的序列。2.根据权利要求1所述的以给定蛋白质主链结构为目标的氨基酸序列设计方法,其特征在于,所述编码器的输入包括中心残基的局部环境,所述局部环境包括中心残基的主链构象,以及与中心残基空间邻近的残基的如下特征:相对于中心残基的位置和取向,相对于中心残基的序列位置和侧链类型。3.根据权利要求2所述的以给定蛋白质主链结构为目标的氨基酸序列设计方法,其特征在于,其中,所述邻近的残基是指给定主链结构中与中心残基距离最近、从空间上包围中心残基的多个残基。4.根据权利要求2所述的以给定蛋白质主链结构为目标的氨基酸序列设计方法,其特征在于,使用编码器将单个中心残基的局部环境信息进行编码并使用解码器解码以完成预训练任务,解码前的中心残基向量即为表示了局部环境的实值向量。5.根据权利要求1
‑
4中任一项所述的以给定蛋白质主链结构为目标的氨基酸序列设计方法,其特征在于,所述解码器的解码目标是中心残基的侧链类型;在进行预训练时,增加中心残基侧链类型以外的其他信息例如二级结构状态、溶剂可及面积,侧链扭转角及主链原子的B因子作为解码目标,进行学习,以提高编码
‑
解码精度。6.根据权利要求1
技术研发人员:刘海燕,陈泉,李厚强,刘宇枫,王炜伦,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。