System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种llps蛋白质识别方法、装置、设备及存储介质。
技术介绍
1、核糖核酸(ribonucleic acid,rna)依赖型的液-液相分离(liquid-liquid phaseseparation,llps)蛋白质在细胞过程中发挥着关键作用,如应激颗粒形成、脱氧核糖核酸(deoxyribonucleic acid,dna)修复、生殖细胞发育和蛋白质翻译调控等。
2、rna依赖型的llps蛋白质的异常行为与多种疾病也存在关联关系,尤其是神经退行性疾病,如肌萎缩性脊髓侧索硬化症和额颞叶痴呆症等。
3、但是,目前基于生物化学的传统方法识别rna依赖型的llps蛋白质既耗时又昂贵。
技术实现思路
1、基于上述技术问题,本申请提供一种llps蛋白质识别方法、装置、设备及存储介质,可以训练能够识别rna依赖型的llps蛋白质的机器学习模型,降低了识别的用时和消耗。
2、第一方面,本申请提供一种llps蛋白质识别方法,该方法包括:获取初始样本集;初始样本集包括多个液-液相分离llps蛋白质序列;从每个llps蛋白质序列中提取预设种类的特征向量;获取每个llps蛋白质序列各自对应的依赖类型;依赖类型包括核糖核酸rna依赖型和非rna依赖型;根据预设种类的特征向量,得到多个训练样本;将每个llps蛋白质序列各自对应的依赖类型作为多个训练样本的标签,得到训练样本集;基于训练样本集对预设的初始模型进行训练,得到llps蛋白质识别模型;llp
3、可选地,预设种类的特征向量包括:氨基酸组成acc特征向量、k间隔氨基酸对组成cksaap特征向量、geary自相关特征向量、以及共轭三联体ctriad特征向量。
4、可选地,预设种类包括多个种类;根据每个llps蛋白质序列中提取出的预设种类的特征向量,得到多个训练样本,包括:计算多个种类中每个种类的特征向量与目标值之间的互信息;将多个种类的特征向量按照互信息的第一顺序进行排序,得到排序结果;第一顺序包括由小到大或者由大到小;从排序结果中,选取与目标值之间互信息最大一个种类的特征向量,完成一次选取;多次从多个种类的特征向量中选取与目标值之间互信息最大的特征向量,直至特征向量的种类数达到预设阈值,得到多次选取出的目标种类的特征向量;将每个llps蛋白序列各自的目标种类的特征向量作为一个训练样本,得到多个训练样本。
5、可选地,在计算多个种类中每个种类的特征向量与目标值之间的互信息之前,方法还包括:计算多个种类的特征向量中,第一种类和第二种类的特征向量之间的相关系数;第一种类和第二种类不同;若第一种类和第二种类的特征向量之间的相关系数大于预设的相关系数阈值,则删除第一种类和第二种类的特征向量。
6、可选地,相关系数通过下述公式确定:
7、
8、其中,cr表示相关系数;xi表示第一种类的特征向量的值;表示第一种类的特征向量的平均值;yi表示第二种类的特征向量的值;表示第二种类的特征向量的平均值。
9、可选地,该方法还包括:获取待识别蛋白质序列;从蛋白质序列中提取目标种类的特征向量;将目标种类的特征向量输入llps蛋白质识别模型,得到待识别蛋白质序列对应的依赖类型。
10、本申请提供的llps蛋白质识别方法,可以获取初始样本集;初始样本集包括多个llps蛋白质序列;从每个llps蛋白质序列中提取预设种类的特征向量;获取每个llps蛋白质序列各自对应的依赖类型;依赖类型包括核糖核酸rna依赖型和非rna依赖型;根据预设种类的特征向量,得到多个训练样本;将每个llps蛋白质序列各自对应的依赖类型作为多个训练样本的标签,得到训练样本集;基于训练样本集对预设的初始模型进行训练,得到llps蛋白质识别模型;llps蛋白质识别模型用于预测llps蛋白质序列对应的依赖类型。与目前基于生物化学的传统方法识别rna依赖型的llps蛋白质的方案相比,本申请可以训练能够识别rna依赖型的llps蛋白质的机器学习模型,降低了识别的用时和消耗。
11、第二方面,本申请提供一种llps蛋白质识别装置,该装置包括:获取模块和处理模块;获取模块,用于获取初始样本集;初始样本集包括多个液-液相分离llps蛋白质序列;处理模块,用于从每个llps蛋白质序列中提取预设种类的特征向量;获取模块,还用于获取每个llps蛋白质序列各自对应的依赖类型;依赖类型包括核糖核酸rna依赖型和非rna依赖型;处理模块,还用于根据预设种类的特征向量,得到多个训练样本;将每个llps蛋白质序列各自对应的依赖类型作为多个训练样本的标签,得到训练样本集;基于训练样本集对预设的初始模型进行训练,得到llps蛋白质识别模型;llps蛋白质识别模型用于预测llps蛋白质序列对应的依赖类型。
12、可选地,预设种类的特征向量包括:氨基酸组成acc特征向量、k间隔氨基酸对组成cksaap特征向量、geary自相关特征向量、以及共轭三联体ctriad特征向量。
13、可选地,预设种类包括多个种类;处理模块,具体用于计算多个种类中每个种类的特征向量与目标值之间的互信息;将多个种类的特征向量按照互信息的第一顺序进行排序,得到排序结果;第一顺序包括由小到大或者由大到小;从排序结果中,选取与目标值之间互信息最大一个种类的特征向量,完成一次选取;多次从多个种类的特征向量中选取与目标值之间互信息最大的特征向量,直至特征向量的种类数达到预设阈值,得到多次选取出的目标种类的特征向量;将每个llps蛋白序列各自的目标种类的特征向量作为一个训练样本,得到多个训练样本。
14、可选地,在计算多个种类中每个种类的特征向量与目标值之间的互信息之前,处理模块,还用于计算多个种类的特征向量中,第一种类和第二种类的特征向量之间的相关系数;第一种类和第二种类不同;若第一种类和第二种类的特征向量之间的相关系数大于预设的相关系数阈值,则删除第一种类和第二种类的特征向量。
15、可选地,相关系数通过下述公式确定:
16、
17、其中,cr表示相关系数;xi表示第一种类的特征向量的值;表示第一种类的特征向量的平均值;yi表示第二种类的特征向量的值;表示第二种类的特征向量的平均值。
18、第三方面,本申请提供一种电子设备,该电子设备包括处理器和存储器;存储器存储有处理器可执行的指令;处理器被配置为执行指令时,使得电子设备实现上述第一方面所述的方法。
19、第四方面,本申请提供一种计算机程序产品,当该计算机程序产品在电子设备中运行时,使得电子设备执行上述第一方面所述相关方法的步骤,以实现上述第一方面所述的方法。
20、第五方面,本申请提供一种可读存储介质,该可读存储介质包括:软件指令;当软件指令在电子设备中运行时,使得电子设备实现上述第一方面所述的方法。
21、上述第二方面本文档来自技高网...
【技术保护点】
1.一种LLPS蛋白质识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述预设种类的特征向量包括:氨基酸组成ACC特征向量、K间隔氨基酸对组成CKSAAP特征向量、Geary自相关特征向量、以及共轭三联体CTriad特征向量。
3.根据权利要求1所述的方法,其特征在于,所述预设种类包括多个种类;所述根据所述每个LLPS蛋白质序列中提取出的所述预设种类的特征向量,得到多个训练样本,包括:
4.根据权利要求3所述的方法,其特征在于,在所述计算所述多个种类中每个种类的特征向量与目标值之间的互信息之前,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述相关系数通过下述公式确定:
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
7.一种LLPS蛋白质识别装置,其特征在于,所述装置包括:获取模块和处理模块;
8.根据权利要求7所述的装置,其特征在于,
9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;
10.一种可
...【技术特征摘要】
1.一种llps蛋白质识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述预设种类的特征向量包括:氨基酸组成acc特征向量、k间隔氨基酸对组成cksaap特征向量、geary自相关特征向量、以及共轭三联体ctriad特征向量。
3.根据权利要求1所述的方法,其特征在于,所述预设种类包括多个种类;所述根据所述每个llps蛋白质序列中提取出的所述预设种类的特征向量,得到多个训练样本,包括:
4.根据权利要求3所述的方法,其特征在于,在所述计算所述多个种类中每...
【专利技术属性】
技术研发人员:胡嘉升,靳艳婷,陈翔,宁琳,林昊,
申请(专利权)人:电子科技大学长三角研究院湖州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。