一种基于多重序列比对的序列扩散方法及其电子设备技术

技术编号:45653815 阅读:26 留言:0更新日期:2025-06-27 18:55
本发明专利技术公开了一种基于多重序列比对的序列扩散方法及其电子设备。本发明专利技术采用二阶段训练拆分了不同阶段训练的目的,更便于模型的可解释性以及灵活进行领域子模型的训练。本发明专利技术聚焦于MSA的特征提取,用更深层的注意力层提取MSA中隐藏的成对信息,能够有效捕捉到序列间的生物学相关性。本发明专利技术利用序列扩散的方式,实现进化信息指引的序列生成,能够生成正确度高且多样性的序列。

【技术实现步骤摘要】

本专利技术涉及蛋白设计领域,更具体的是涉及一种基于多重序列比对的序列扩散方法及其电子设备


技术介绍

1、在生物信息学领域,多重序列比对(multiple sequence alignment,msa)是研究同源生物序列及其进化关系的重要工具。msa不仅用于识别相似序列中的保守区域,还帮助推测这些序列的共同祖先。随着高通量测序技术的发展,生成的大量序列数据为生物学研究提供了丰富的资源,但同时也带来了处理和分析这些数据的挑战。

2、近年来,深度学习方法在序列分析中显示出巨大潜力。深度学习能够通过学习日益增长的数据中的隐含特征,捕捉序列间的复杂关系。卷积神经网络和transformer等架构已被应用于序列分类、生成和对齐等任务。然而,这些方法在处理复杂的生物序列时,仍然面临着对长距离依赖关系的建模困难。因此如何提高对序列分析的准确性从而生成高质量且多样性的序列是目前亟待解决的技术问题。


技术实现思路

1、针对现有技术存在的不足,本专利技术的目的之一在于提出了一种新的方法,旨在提供能深度提取msa中的成本文档来自技高网...

【技术保护点】

1.一种基于多重序列比对的序列扩散训练方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于多重序列比对的序列扩散训练方法,其特征在于,在所述S1步骤中,输入的MSA需进行采样,采样要求为覆盖率达0.75以上;序列的字符维度为21,所述序列的字符包括20种标准氨基酸和间隔字符。

3.根据权利要求1所述的一种基于多重序列比对的序列扩散训练方法,其特征在于,在所述S1步骤中,所述成对更新模块包括三角更新、三角注意力和过渡层;在所述S1步骤中,所述MSA更新模块包括行注意力和过渡层。

4.根据权利要求1所述的一种基于多重序列比对的序列扩散训练方法,...

【技术特征摘要】

1.一种基于多重序列比对的序列扩散训练方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于多重序列比对的序列扩散训练方法,其特征在于,在所述s1步骤中,输入的msa需进行采样,采样要求为覆盖率达0.75以上;序列的字符维度为21,所述序列的字符包括20种标准氨基酸和间隔字符。

3.根据权利要求1所述的一种基于多重序列比对的序列扩散训练方法,其特征在于,在所述s1步骤中,所述成对更新模块包括三角更新、三角注意力和过渡层;在所述s1步骤中,所述msa更新模块包括行注意力和过渡层。

4.根据权利要求1所述的一种基于多重序列比对的序列扩散训练方法,其特征在于,在所述s2步骤中,所述去噪模块包括注意力层和过渡层。

5.根据权利要求...

【专利技术属性】
技术研发人员:翟珂管佳威吴炜坤王浩博
申请(专利权)人:杭州力文所生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1