【技术实现步骤摘要】
本专利技术涉及蛋白质功能预测领域,尤其涉及基于深度残差网络的家蚕蛋白质功能预测多模态融合方法。
技术介绍
1、家蚕蛋白质功能预测对蚕业科学及相关领域意义重大。随着分子生物学研究深入,理解家蚕蛋白质功能能助力优良品种选育、疾病防控等。然而,传统预测手段难以满足需求。一方面,家蚕蛋白质数据分散在各类数据库,不同品种与发育阶段的数据缺乏系统整合,难以获取全面、高质量数据。另一方面,过往研究多聚焦单一数据类型,无论是仅依靠蛋白质序列,还是单独分析蛋白质结构,都无法充分捕捉家蚕蛋白质功能的复杂性,导致预测准确性受限。
2、现有技术在家蚕蛋白质功能预测过程中,数据处理环节存在诸多不足。在数据获取时,难以从多源权威数据库高效采集数据,更无法针对家蚕不同品种、发育阶段进行精准分类标注。预处理阶段,对蛋白质序列数据,常规方法难以有效去除噪声与错误序列,简单的编码方式无法很好保留序列特征;对于蛋白质结构数据,传统手段难以优化结构、消除不合理构象,也不能将结构合理转化为利于分析的形式,导致后续分析基础不牢。
3、从模型构建与应用层面看
...【技术保护点】
1.基于深度残差网络的家蚕蛋白质功能预测多模态融合方法,其特征在于,包括:
2.根据权利要求1所述的基于深度残差网络的家蚕蛋白质功能预测多模态融合方法,其特征在于,在步骤S2中,对家蚕蛋白质序列数据进行独热编码预处理,设家蚕蛋白质序列为S=s1s2…sn,其中,n为序列长度,代表蛋白质由n个氨基酸残基依次连接,si表示序列中第i个氨基酸残基,i=1,2,…n,氨基酸种类数为m,m=20,经过独热编码后,每个氨基酸残基si被编码为长度为m的向量vsi,若si对应第j种氨基酸,则向量vsi的第j个元素为1,其余元素为0,数学表达式为
3.根据权利要
...【技术特征摘要】
1.基于深度残差网络的家蚕蛋白质功能预测多模态融合方法,其特征在于,包括:
2.根据权利要求1所述的基于深度残差网络的家蚕蛋白质功能预测多模态融合方法,其特征在于,在步骤s2中,对家蚕蛋白质序列数据进行独热编码预处理,设家蚕蛋白质序列为s=s1s2…sn,其中,n为序列长度,代表蛋白质由n个氨基酸残基依次连接,si表示序列中第i个氨基酸残基,i=1,2,…n,氨基酸种类数为m,m=20,经过独热编码后,每个氨基酸残基si被编码为长度为m的向量vsi,若si对应第j种氨基酸,则向量vsi的第j个元素为1,其余元素为0,数学表达式为
3.根据权利要求1所述的基于深度残差网络的家蚕蛋白质功能预测多模态融合方法,其特征在于,在步骤s2中,对于家蚕蛋白质结构数据预处理,将蛋白质三维结构表示为图结构g=(v,e),其中,v是节点集合,每个节点vi∈v对应一个氨基酸残基,e是边集合,边eij∈e表示氨基酸残基vi和vj之间存在相互作用,通过挖掘结构数据特征,计算节点的度特征,设节点vi的度为d(vi),计算公式为|v|表示节点集合v中节点总数,该公式含义是,对与节点vi相连的所有边计数,即d(vi)表示与节点vi直接相连的其他氨基酸残基数量。
4.根据权利要求1所述的基于深度残差网络的家蚕蛋白质功能预测多模态融合方法,其特征在于,在步骤s3中,针对家蚕蛋白质序列数据特征提取的基于卷积神经网络的序列特征提取网络,包含多个卷积层和池化层,卷积层卷积核大小设定为k×1,k为奇数,设第l个卷积层输入为xl,是二维矩阵,维度为hl×wl,hl表示输入特征图高度,wl表示宽度,卷积核为wl,二维矩阵,维度为k×wl,用于在输入特征图上滑动卷积,偏置为bl,是标量,该卷积层输出yl通过公式yl=f(xl*wl+bl)计算得出,f为relu函数,表达式为池化层采用最大池化,池化窗口大小为p×1。
5.根据权利要求1所述的基于深度残差网络的家蚕蛋白质功能预测多模态融合方法,其特征在于,在步骤s3中,针对家蚕蛋白质结构数据特征提取采用基于graphsage的图神经网络结构特征提取网络,在graphsage网络中,对于每个节点vi,通过聚合邻居节点特征更新自身特征,设节点vi在第t层的特征为邻居节点集合为n(vi),则节点vi在第t+1层的特征更新公式为其中,σ为激活函数,wt是权重矩阵,维度与特征向量维度适配,bt是偏置向量,concat表示拼接操作,即将节点vi自身在第t层的特征与邻居节点特征平均值按顺序拼接成新特征向量。
6.根据权利要求1所述的基于深度残差网络的家蚕蛋白质功能预测多模态融合方法,其特征在于,在步骤s3中,将提取到的家蚕蛋白质序列特征和结构特征进行融合时,采用自适应权重融...
【专利技术属性】
技术研发人员:刘秋宁,石燕霞,卞丹丹,杜会聪,沈加飞,姜森颢,王刚,张华彬,张代臻,唐伯平,
申请(专利权)人:盐城师范学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。