当前位置: 首页 > 专利查询>河南大学专利>正文

基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统技术方案

技术编号:33633423 阅读:38 留言:0更新日期:2022-06-02 01:41
本发明专利技术公开一种基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统。该方法首先采用预训练的蛋白质语言模型ProtT5

【技术实现步骤摘要】
基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统


[0001]本专利技术属于计算生物学
,尤其涉及一种基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统。

技术介绍

[0002]蛋白质是由20种标准氨基酸类型组成的生物大分子,其在许多生物过程中起着非常重要的作用。蛋白质的氨基酸序列决定其三级结构,而其功能又显著地依赖于三级结构。当前由于蛋白质测序技术的快速发展,使得蛋白质序列数据库中蛋白质的数量显著地多于已知结构的蛋白质数量。为此,计算方法预测蛋白质结构已经成为缩小序列数量和结构数量差异的必要手段。在蛋白质三级结构预测中,一个重要的子任务是寻找具有类似结构的蛋白质。对于一个未知结构的蛋白质,当其在PDB数据库中存在类似结构的蛋白质时,以该类蛋白质为模板可以精确地对其结构进行建模。特别地,蛋白质折叠识别可以帮助寻找具有类似结构的蛋白质。
[0003]当前最新发布的SCOPe 2.08数据库把蛋白质结构分成12大类:全α蛋白质、全β蛋白质、α/β蛋白质、α+β蛋白质、多域蛋白质、膜和细胞表面蛋白质及肽、小蛋白质、卷曲的卷曲蛋本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,包括:步骤1:确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;步骤2:采用预训练的蛋白质语言模型ProtT5

XL

UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;步骤3:通过计算均值和余弦相似性将嵌入矩阵转化为蛋白质链的固定长度的特征向量;步骤4:构建蛋白质折叠识别网络模型,所述蛋白质折叠识别网络模型为由三个全连接层组成的多层感知机,且多层感知机的最后一层全连接层采用的是归一化的全连接层;步骤5:采用针对不平衡分类的标签分布意识的间隔损失作为训练折叠识别网络模型的损失函数;步骤6:基于蛋白质折叠训练数据集和训练折叠识别网络的损失函数训练折叠识别网络模型;步骤7:基于蛋白质折叠测试数据集和训练好的折叠识别网络模型预测蛋白质链的折叠类别。2.根据权利要求1所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,所述步骤2包括:对于蛋白质折叠训练数据集中任意一个长度为L的蛋白质链,先将其氨基酸序列中的所有字符都转换为大写字符,并将转换后的氨基酸序列作为模型ProtT5

XL

UniRef50的输入,最后在半精度模式下运行该模型并保存其编码器的输出,获得大小为L
×
1024的嵌入特征矩阵。3.根据权利要求2所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,所述步骤3包括:对于给定的大小为L
×
1024的嵌入矩阵E,首先计算嵌入矩阵每列的均值,获得长度为1024的特征表示:其中l表示嵌入矩阵E的行数;然后计算嵌入矩阵每行的均值,获得长度为L的向量:接着计算f
row_mean
与嵌入矩阵每个列向量的余弦相似度,获得长度为1024的特征表示:f
cos_sim
=[s1,s2,...,s
j
,...s
1024
]
T
余弦相似度s
j
按如下公式进行计算:其中<
·
,
·
>表示两个向量的内积,||
·
||表示向量的长度;
最后,将两个向量f
col_mean
与f
cos_sim
拼接成一个向量来表示蛋白质链的特征,通过上述操作每个蛋白质链可以表示成2048维的特征向量。4.根据权利要求1所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,所述步骤6还包括:采用PyTorch深度学习框架的默认权值初始化方法初始化多层感知机的网络参数。5.根据权利要求1所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,所述步骤7包括:首先执行步骤2和步骤3以将蛋白质折叠测试数据集中蛋白质链表示为特征向量,然后将该特征向量输入训练好的折叠识别网络模型中,将得分最高的折叠类别分配给该蛋白质链。6.一种基于嵌入特征和不平衡分类损失的蛋白质折叠识别系统,其特征在于,包括:数据集确定...

【专利技术属性】
技术研发人员:张蕾杨伟文云光
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1