System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于预训练模型的合成蛋白质干筛选的方法技术_技高网

一种基于预训练模型的合成蛋白质干筛选的方法技术

技术编号:41092077 阅读:4 留言:0更新日期:2024-04-25 13:51
本发明专利技术公开了一种基于预训练模型的合成蛋白质干筛选的方法,首先将蛋白质序列输入到预训练的WGAN模型中,形成一个经过预训练的生成器;对蛋白质序列中的特定氨基酸进行Mask操作,利用生成器模仿目标序列生成一批合成蛋白质序列;检查合成蛋白质序列的溶解度是否大于0.70,并且特殊氨基酸的数量是否超过目标序列中特殊氨基酸的数量加1;若满足条件,则首先计算合成蛋白质序列与目标序列之间的骨架距离和特征距离,将这两个距离分别进行升序排序,并根据排序结果选择对应的合成蛋白质作为最终的筛选结果。该方法利用了结构和理化特性的综合信息,能够有效预测并筛选出在结构和理化特性上与目标序列更相似的合成蛋白质。

【技术实现步骤摘要】

本专利技术涉及生物信息学和计算生物学,尤其涉及一种基于预训练模型的合成蛋白质干筛选的方法


技术介绍

1、生物信息学和计算生物学在过去几十年中迅速发展,通过人类基因组计划、高通量测序技术和机器学习等工具,成功解读基因组、蛋白质结构、基因表达和代谢网络,推动了生物学研究的前沿。这一跨学科领域的进展为深入理解生命系统、疾病机理和个性化医学提供了关键工具和洞察。

2、现有技术中的高通量筛选是使用自动化设备和大规模实验平台,hts允许对大量的蛋白质变体进行快速、并行的功能筛选,这包括在生物学、药物发现和酶工程中的应用,具体是利用动力学目标引导合成(tgs)平台,通过高通量筛选设计库,在目标蛋白bcl-xl上组装了四个ppims,实现了对bcl-xl/bh3相互作用的调节,突显了动力学tgs在高质量ppims识别和合成中的有效性,具体实现步骤如下:

3、1、合成反应性片段和酰磺酰胺:合成反应性片段和酰磺酰胺,并确保其纯度和结构符合预期。

4、2、bcl-xl蛋白的表达和纯化:表达野生型和突变bcl-xl融合蛋白并对其进行纯化。

5、3、bcl-xl与反应性片段孵育:在96孔板中,将硫酸酰基和磺酰氮建筑块添加到bcl-xl溶液中,然后孵育6小时,温度为37℃。

6、4、液相色谱-质谱分析(lc/ms-sim):对孵育样品进行lc/ms-sim分析,使用zorbaxsb-c18柱,phenomenex c18保护柱,以及正选择的离子模式进行质谱检测。通过分析质谱数据,鉴定tgs命中化合物,包括质量和保留时间。

7、5、对照组的液相色谱-质谱分析:将相同的硫酸酰基和磺酰氮建筑块组合在没有bcl-xl的缓冲液中进行孵育。之后进行lc/ms-sim分析,用于与bcl-xl含有的孵育的色谱图进行比较。

8、6、比较合成酰磺酰胺与bcl-xl孵育中的酰磺酰胺:合成酰磺酰胺进行lc/ms-sim分析,与含有bcl-xl的孵育中的酰磺酰胺进行对比。

9、7、荧光偏振竞争结合测定:使用荧光偏振竞争结合测定方法进行功能性评估。

10、但上述方案在实施过程中具有如下缺点:

11、1、技术局限性:现有技术可能受到特定样品类型的限制,且对于不同类型的化合物和蛋白质可能需要不同的优化;

12、2、实验条件的选择:孵育条件和实验设计可能需要仔细优化,否则可能导致反应效率低下或者不受控制的副反应;

13、3、复杂性和费用:液相色谱-质谱分析等高级技术的使用可能增加实验的复杂性和费用,且需要专业的设备和技能。


技术实现思路

1、本专利技术的目的是提供一种基于预训练模型的合成蛋白质干筛选的方法,该方法利用了结构和理化特性的综合信息,能够有效预测并筛选出在结构和理化特性上与目标序列更相似的合成蛋白质。

2、本专利技术的目的是通过以下技术方案实现的:

3、一种基于预训练模型的合成蛋白质干筛选的方法,所述方法包括:

4、步骤1、首先将目标输入到预训练的wasserstein生成对抗网络wgan模型中,保存生成器的预训练参数,形成一个经过预训练的生成器;

5、步骤2、对目标蛋白质序列中的特定氨基酸进行mask操作,利用步骤1预训练好的生成器模仿所述目标蛋白质序列生成一批合成蛋白质序列,并为其编号;

6、步骤3、在得到合成蛋白质序列后,首先检查所述合成蛋白质序列的溶解度是否大于0.70,并且特殊氨基酸的数量是否超过目标蛋白质序列中特殊氨基酸的数量加1;

7、步骤4、若满足步骤3的条件,则进入步骤5进行合成蛋白质序列复筛操作;若不满足步骤3的条件,则返回步骤2进行带mask的蛋白质序列生成操作;

8、步骤5、在复筛操作阶段,首先计算合成蛋白质序列与目标蛋白质序列之间的骨架距离和特征距离,将这两个距离分别进行升序排序,并根据排序结果选择对应的合成蛋白质作为最终的筛选结果。

9、由上述本专利技术提供的技术方案可以看出,上述方法利用了结构和理化特性的综合信息,能够有效预测并筛选出在结构和理化特性上与目标序列更相似的合成蛋白质,为合成蛋白质的设计和优化提供了一种全面而高效的策略,有望在蛋白质工程领域推动更深入的探索和创新。

本文档来自技高网...

【技术保护点】

1.一种基于预训练模型的合成蛋白质干筛选的方法,其特征在于,所述方法包括:

2.根据权利要求1所述基于预训练模型的合成蛋白质干筛选的方法,其特征在于,在步骤1中,WGAN模型是由生成器G和判别器D组成的,生成器G接收一个随机噪声向量z作为输入,是从正态分布中采样得到的;生成器G的输出会经过一个激活函数进行归一化,其目标是通过学习训练数据的分布特征,生成与真实数据相似的样本,从而欺骗判别器D;

3.根据权利要求2所述基于预训练模型的合成蛋白质干筛选的方法,其特征在于,在步骤1中,将蛋白质序列输入到预训练的WGAN模型中,保存生成器的预训练参数,形成一个经过预训练的生成器,具体过程为:

4.根据权利要求1所述基于预训练模型的合成蛋白质干筛选的方法,其特征在于,所述步骤2的过程具体为:

5.根据权利要求1所述基于预训练模型的合成蛋白质干筛选的方法,其特征在于,在步骤5中,合成蛋白质序列与目标蛋白质序列之间的骨架距离通过AlphaFold2工具计算,根据骨架距离来确保它们在结构上的相似性,具体来说:首先通过AlphaFold2在线预测工具提交两种蛋白质序列并获取相应的结构预测;之后使用PyMOL的align命令执行蛋白结构的叠合比对来计算目标蛋白质序列与合成蛋白质序列之间的骨架距离;最后根据计算出的两种蛋白质序列间的骨架距离来判定它们的结构相似性;

6.根据权利要求1所述基于预训练模型的合成蛋白质干筛选的方法,其特征在于,在步骤5中,根据排序结果选择对应的合成蛋白质作为最终的筛选结果的具体过程为:

...

【技术特征摘要】

1.一种基于预训练模型的合成蛋白质干筛选的方法,其特征在于,所述方法包括:

2.根据权利要求1所述基于预训练模型的合成蛋白质干筛选的方法,其特征在于,在步骤1中,wgan模型是由生成器g和判别器d组成的,生成器g接收一个随机噪声向量z作为输入,是从正态分布中采样得到的;生成器g的输出会经过一个激活函数进行归一化,其目标是通过学习训练数据的分布特征,生成与真实数据相似的样本,从而欺骗判别器d;

3.根据权利要求2所述基于预训练模型的合成蛋白质干筛选的方法,其特征在于,在步骤1中,将蛋白质序列输入到预训练的wgan模型中,保存生成器的预训练参数,形成一个经过预训练的生成器,具体过程为:

4.根据权利要求1所述基于预训练模型的合成蛋白质干筛选的方法...

【专利技术属性】
技术研发人员:林小竹宋慧佳周天千林子涵张怀念方春
申请(专利权)人:北京石油化工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1