【技术实现步骤摘要】
蛋白质结构预测方法、模型训练方法、装置、设备及介质
[0001]本专利技术涉及生物信息、深度学习和计算机应用
,尤其涉及一种蛋白质结构预测方法、模型训练方法、装置、设备及介质。
技术介绍
[0002]蛋白质实质上是一条或多条由不同氨基酸组成的氨基酸链,氨基酸链要经过屡次折叠,构成特定的三维构造之后,才具有特定的功用。尽管包括单颗粒冷冻电镜、x
‑
射线、核磁共振等在内的实验手段能够精确地对蛋白质的三维结构进行测定,得到其自然状态下的空间信息,但是这类实验技术往往存在成本高昂、周期过长等缺点。
[0003]近年来人工智能技术及其理论的发展取得了长足的进步,并被广泛应用于生物制药领域,涌现出一批对蛋白质三维结构进行预测的方法。经过训练的深度神经网络可以根据蛋白质的氨基酸序列预测蛋白质的特性,主要判断依据是氨基酸对之间的距离和连接这些氨基酸的化学键之间的角度。通过已知信息,可以推断出蛋白质折叠之后的角度和距离信息,从而推断出整个蛋白质的结构。当前蛋白质结构的预测方法主要可以分为:(1)直接预测蛋白质中 ...
【技术保护点】
【技术特征摘要】
1.一种蛋白质结构预测模型的训练方法,其特征在于,所述蛋白质结构预测模型包括特征提取网络和结构预测网络,所述蛋白质结构预测模型的训练方法包括步骤:获取训练数据集,所述训练数据集包括已知的蛋白质序列和所述蛋白质序列中氨基酸残基的理化性质;根据所述蛋白质序列,生成含有蛋白质序列信息的第一特征向量;对所述氨基酸残基的理化性质进行聚类,得到聚类后的氨基酸残基的理化性质,并根据所述聚类后的氨基酸残基的理化性质,生成含有氨基酸残基理化信息的第二特征向量;利用所述第一特征向量和第二特征向量,对所述特征提取网络和结构预测网络进行训练,得到所述蛋白质结构预测模型。2.根据权利要求1所述的训练方法,其特征在于,所述训练数据集还包括基于所述蛋白质序列获取的位置编码数列;所述根据所述蛋白质序列,生成含有蛋白质序列信息的第一特征向量;对所述氨基酸残基的理化性质进行聚类,得到聚类后的氨基酸残基的理化性质,并根据所述聚类后的氨基酸残基的理化性质,生成含有氨基酸残基理化信息的第二特征向量的步骤具体包括:将所述位置编码数列转化为位置编码特征向量;对所述蛋白质序列中的氨基酸进行编码得到序列特征向量,将所述序列特征向量与所述位置编码特征向量进行拼接,得到第一特征向量;对所述氨基酸残基的理化性质进行聚类,得到若干个具有代表性的能够表征每个氨基酸的氨基酸残基理化性质;根据所述若干个具有代表性的能够表征每个氨基酸的氨基酸残基理化性质对所述蛋白质序列中的氨基酸进行编码,得到理化性质特征向量;将所述理化性质特征向量与所述位置编码特征向量进行拼接,得到第二特征向量。3.根据权利要求2所述的训练方法,其特征在于,所述对所述蛋白质序列中的氨基酸进行编码得到序列特征向量的步骤具体包括:提供预训练模型;将所述蛋白质序列输入所述预训练模型,对所述预训练模型进行训练;将所述蛋白质序列输入训练好的预训练模型,对所述蛋白质序列中的氨基酸进行编码,得到序列特征向量。4.根据权利要求3所述的训练方法,其特征在于,所述对所述预训练模型进行训练的方法包括步骤:随机掩盖所述蛋白质序列中的一个氨基酸作为输入,通过梯度反传算法对所述预训练模型的权重进行调整,直至所述预训练模型能够恢复出所述蛋白质序列中被掩盖的氨基酸。5.根据权利要求2所述的训练方法,其特征在于,当所述蛋白质为多链时,所述训练数据集中的蛋白质序列为每条子链的蛋白质序列拼接后的蛋白质序列;所述训练数据集中的位置编码数列为每条子链的位置编码数列拼接后的位置编码数列。6.根据权利要求5所述的训练方法,其特征在于,所述利用所述第一特征向量和第二特征向量,对所述特征提取网络和结构预测网络进行训练前还包括步骤:对所述蛋白质不同的子链进行相对位置编码,进行拼接后,得到第三特征向量。
7.根据权利要求6所述的训练方法,其特征在于,所述训练数据集还包括蛋白质序列中所有原子的真实三维坐标;所述蛋白质序列中所有原子的真实三维坐标为每条子链的所有原子的真实三维坐标数列拼接后的三维坐标数列;所述对所述特征提取网络和结构预测网络进行训练,得到所述蛋白质结构预测模型的步骤具体包括:将所述第一特征向量输入自注意力网络,通过自注意力机制处理若干次,得到处理后的第一特征向量;将所述第二特征向量输入自注意力网络,通过自注意力机制处理若干次,得到处理后的第二特征向量;将所述处理后的第一特征向量和所述处理后的第二特征向量...
【专利技术属性】
技术研发人员:熊袁鹏,刘子敬,幺宝刚,
申请(专利权)人:粤港澳大湾区数字经济研究院福田,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。