蛋白质的DNA界面的重编程方法、装置、设备及介质制造方法及图纸

技术编号:41336251 阅读:18 留言:0更新日期:2024-05-20 09:55
本发明专利技术提供一种蛋白质的DNA界面的重编程方法、装置、设备及介质,其中方法包括:基于蛋白质和第一DNA序列的组合,确定第一DNA序列各位置的碱基和第一DNA序列各位置存在各类碱基的概率,基于第一DNA序列各位置存在各类碱基的概率确定蛋白质的DNA结合界面;将结合界面和第一DNA序列各位置的碱基输入至条件语言模型中,得到模型输出第二DNA序列;确定第二DNA序列中掩膜位置的至少两种氨基酸分配概率,基于至少两种氨基酸分配概率确定重编程的蛋白质的DNA界面,使得蛋白质的DNA识别区域满足兼容性和特异性,从而使得后续重编程的蛋白质的DNA界面的特异性更好,重编程的蛋白质的DNA界面的成功率更高。

【技术实现步骤摘要】

本专利技术涉及蛋白质设计,尤其涉及一种蛋白质的dna界面的重编程方法、装置、设备及介质。


技术介绍

1、蛋白质特异性识别dna主要依靠蛋白质上极性残基的侧链与碱基形成氢键,而对极性相互作用进行建模目前仍然是一个挑战。目前业界主要使用基于rosetta能量函数的方法来对蛋白质的结合特异性进行重编程。

2、现在的基于rosetta能量函数方法存在着依赖高精度蛋白-dna复合物结构、对评分函数十分敏感、准确率低、设计自由度低、采样优化耗时比较高、掌握rosetta软件门槛高等问题。目前基于能量函数的方法依赖用户输入的蛋白-dna复合物结构,并且在对界面氨基酸残基突变后一般默认蛋白质主链结构不变,所以这种方法只能对结合界面上的少数几个氨基酸进行突变,这大大限制了对蛋白质结合界面进行重编程的自由度。由于界面上需要突变的氨基酸需要人为指定,这对缺乏专业知识的人是个挑战。因为需要对每个突变位置采样不同方向角度的旋转异构体,然后进行动力学模拟,这个过程十分耗时,一般突变的氨基酸个数不会超过5个。另外想要完成对蛋白质结合界面重编程,需要综合使用多个rosetta本文档来自技高网...

【技术保护点】

1.一种蛋白质的DNA界面的重编程方法,其特征在于,包括:

2.根据权利要求1所述的蛋白质的DNA界面的重编程方法,其特征在于,所述确定所述第二DNA序列中掩膜位置的至少两种氨基酸分配概率,并基于所述至少两种氨基酸分配概率,确定重编程的蛋白质的DNA界面,包括:

3.根据权利要求2所述的蛋白质的DNA界面的重编程方法,其特征在于,所述用于重编码的语言模型的训练步骤包括:

4.根据权利要求3所述的蛋白质的DNA界面的重编程方法,其特征在于,所述基于所述序列预测损失对所述初始语言模型进行参数迭代,得到所述用于重编码的语言模型,包括:p>

5.根据权...

【技术特征摘要】

1.一种蛋白质的dna界面的重编程方法,其特征在于,包括:

2.根据权利要求1所述的蛋白质的dna界面的重编程方法,其特征在于,所述确定所述第二dna序列中掩膜位置的至少两种氨基酸分配概率,并基于所述至少两种氨基酸分配概率,确定重编程的蛋白质的dna界面,包括:

3.根据权利要求2所述的蛋白质的dna界面的重编程方法,其特征在于,所述用于重编码的语言模型的训练步骤包括:

4.根据权利要求3所述的蛋白质的dna界面的重编程方法,其特征在于,所述基于所述序列预测损失对所述初始语言模型进行参数迭代,得到所述用于重编码的语言模型,包括:

5.根据权利要求1至4中任一项所述的蛋白质的dna界面的重编程方法,其特征在于,所述第一dna序列各位置存在各类碱基的概率的确定步骤包括:

6.根据权利要求1至4中任一项所述的蛋白质的dna界面...

【专利技术属性】
技术研发人员:陈凌辉朱金炜徐景明
申请(专利权)人:安徽元构生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1