SLiMs预测模型的生成方法、装置、设备和存储介质制造方法及图纸

技术编号:23788387 阅读:106 留言:0更新日期:2020-04-15 01:14
本申请公开了一种SLiMs预测模型的生成方法、装置、设备和存储介质,该方法包括:获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个SLiMs片段由多个第一位点组成,每个非SLiMs片段包括多个第二位点;提取每个第一位点对应的第一特征向量和每个第二位点对应的第二特征向量;利用多个第一特征向量和多个第二特征向量训练预先构建的初始预测模型,生成目标预测模型,该目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。可见,借助该目标预测模型,即可方便、快速和准确的预测出蛋白质上属于SLiMs片段的位点,从而识别出SLiMs片段。

Generation method, device, equipment and storage medium of slim prediction model

【技术实现步骤摘要】
SLiMs预测模型的生成方法、装置、设备和存储介质
本申请涉及生物信息
,特别是涉及一种特异性作用位点(英文:ShortLinearMotifs,简称:SLiMs)的预测模型生成方法、装置、设备和存储介质。
技术介绍
通常,一些蛋白质在天然条件下能够折叠缠绕形成确定的空间三维结构,可以根据该确定的空间三维结构分析和确定出该蛋白质的生物功能;而另一些蛋白质则在天然条件下无法形成确定的空间三维结构,该类蛋白质称为本征无序蛋白质(英文:IntrinsicallyDisorderedProteins,简称:IDPs)。该IDPs由于空间三维结构的不确定性,所以无法通过分析其空间三维结构确定对应的生物功能。在IDPs中,能够通过其上的SLiMs和其他蛋白质结合,体现该IDPs的生物功能,所以,确定IDPs中的SLiMs对分析该IDPs的生物功能具有重要意义。基于此,目前亟待提供一种能够快速、准确的识别IDPs中SLiMs的方法,以便分析和确定IDPs的生物功能。
技术实现思路
为了解决上述技术问题,本申请实施例提供了一种本文档来自技高网...

【技术保护点】
1.一种SLiMs预测模型的生成方法,其特征在于,包括:/n获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个所述SLiMs片段由多个第一位点组成,每个所述非SLiMs片段包括多个第二位点;/n提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量;/n利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。/n

【技术特征摘要】
1.一种SLiMs预测模型的生成方法,其特征在于,包括:
获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个所述SLiMs片段由多个第一位点组成,每个所述非SLiMs片段包括多个第二位点;
提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量;
利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。


2.根据权利要求1所述的方法,其特征在于,所述第一特征向量的数量和所述第二特征向量的数量相同。


3.根据权利要求1或2所述的方法,其特征在于,所述获取多个SLiMs片段和多个非SLiMs片段,包括:
从本征无序蛋白质IDPs序列库中,获得多个分子识别特征MoRFs片段;
基于所述MoRFs片段,筛选片段长度为大于等于3个氨基酸且小于等于10个氨基酸的多个所述SLiMs片段;
基于所述MoRFs片段,选取与各所述SLiMs片段相隔第一预设长度以外的多个所述非SLiMs片段。


4.根据权利要求1或2所述的方法,其特征在于,所述提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量,包括:
对于各所述SLiMs片段,根据基因本体论获取该SLiMs片段所在蛋白质对应的第一子特征向量;并且,对于各所述非SLiMs片段,根据所述基因本体论获取该非SLiMs片段所在蛋白质对应的第二子特征向量;
利用蛋白质对比工具获得该SLiMs片段所在蛋白质对应的第一位置特异性得分矩阵PSSM;
以该SLiMs片段中的每个所述第一位点为中心,基于所述第一PSSM向外扩展第二预设长度,得到各所述第一位点对应的第三子特征向量;并且,以该非SLiMs片段中的每个所述第二位点为中心,基于所述第一PSSM向外扩展所述第二预设长度,得到各所述第二位点对应的第四子特征向量;
基于所述第一子特征向量和每个所述第一位点对应的所述第三子特征向量,获得每个所述第一位点对应的所述第一特征向量;并且,基于所述第二子特征向量和每个所述第二位点对应的所述第四子特征向量,获得每个所述第二位点对应的所述第二特征向量。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取待预测蛋白质,所述待预测蛋白质包括N个位点,N为大于1的整数;
提取所述待预测蛋白质...

【专利技术属性】
技术研发人员:汤一凡崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1