System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息,涉及生物信息学和机器学习方法,尤其是一种基于全局剪枝和级联特征的植物lncpeps预测方法。
技术介绍
1、长非编码rna(long noncoding rna,lncrna)广泛存在于生物体中并具有强大的调控作用,是生命科学领域的研究前沿与热点。传统观点认为,lncrna缺乏一类具备编码蛋白质能力的元件——开放阅读框(open reading frames,orfs),因而不具备编码能力。然而,近年来的研究表明,部分lncrna包含小开放阅读框(small open reading frames,sorfs),能够编码参与调控生物体的生长发育、胁迫反应的小肽。对lncrna编码肽(lncrna-encoded peptides,lncpeps)的发现,颠覆了研究人员对lncrna的认知,拓宽并加深了研究人员对基因组学的研究广度和深度,这也使lncpeps成为了生命科学领域的研究热点。
2、分子生物学实验是预测lncpeps的经典技术,然而面临耗时且昂贵的问题。基于机器学习技术开发的预测方法省时省力,同时能为生物学实验提供更加准确的鉴定数据,吸引了越来越多研究人员的关注。不过相关方法大多集中在动物领域,对植物领域的研究稀少。现有方法存在以下问题:
3、1、现有方法大多关注动物和人类的lncpeps,动植物数据间的差异,导致这些方法无法直接应用于植物领域的相关研究。
4、2、经验证的植物lncpeps数量较少,导致在构造数据集时正集样本偏少,易出现极端不平衡数据问题,进而
5、3、lncpeps是一类长度小于100个氨基酸单位的短序列,现有基于领域知识的人工特征无法完全有效表征lncpeps。
6、4、对传统机器学习模型的集成所得模型属于浅层结构,未能充分挖掘这些机器学习模型输出特征之间的联系。
技术实现思路
1、本专利技术的目的在于克服现有技术的不足,提供一种基于全局剪枝和级联特征的植物lncpeps预测方法,能够准确和有效预测植物lncpeps。
2、本专利技术解决现有的技术问题是采取以下技术方案实现的:
3、一种基于全局剪枝和级联特征的植物lncpeps预测方法,包括以下步骤:
4、步骤1、搜集lncpeps序列数据,并对搜集到的数据进行数据预处理,创建知识库对数据进行筛选,构建用于模型训练和测试的数据集;
5、步骤2、对极端不平衡数据集基于下采样进行拆分,以获得若干个平衡的子数据集,并抽取数据的高维人工特征,基于efiss-es特征选择方法对高维特征进行特征降维处理;
6、步骤3、训练多个机器学习模型,并设置过滤条件进行全局剪枝,获得优化模型和全局最优子数据集;
7、步骤4、将多个机器学习模型的输出组成特征向量,并继续训练与筛选机器学习模型获得模新的特征向量,将特征向量之间进行连接,并作为下一层模型的输入,由此得到级联特征;
8、步骤5、将级联特征输入到由机器学习模型构成的元学习器中,由此构建预测方法lncpeppred,并采用该预测方法lncpeppred预测植物lncpeps。
9、进一步,所述步骤1的具体实现方法包括以下步骤:
10、步骤1.1、搜集经质谱技术和核糖体印迹得到的植物lncpeps的跨物种数据,挖掘植物中仍被认为不具备编码能力的sorfs,基于核苷酸密码子和氨基酸之间的对应关系,获取sor fs对应的氨基酸序列,将上述数据组成训练验证集;
11、步骤1.2、从ncep数据库中下载经分子生物学实验验证的lncpeps作为正集数据;随机选择非编码rna中的sorfs对应的氨基酸序列,根据正负数据比例的不同构建多个独立测试集,用以验证预测方法的泛化能力和在正负不平衡数据情况下的表现。
12、进一步,所述步骤1.1和步骤1.2还包括使用cd-hit工具以0.8作为阈值去除序列冗余的处理步骤。
13、进一步,所述步骤2的具体实现方法包括以下步骤:
14、步骤2.1、首先,将训练验证集中的负集样本基于下采样并依据序列长度分布拆分为多个子集;然后,在每个子集中随机选取样本,由此得到10个和正集样本量相同的数据集;最后,将正负样本分别进行组合,得到了10个平衡的子数据集;
15、步骤2.2、抽取上述数据的氨基酸组成转换分布、氨基酸对组成、k-间隔氨基酸对组成、氨基酸组成、成对氨基酸组成、以适应性跳过方式出现的氨基酸对组成、分组氨基酸类型的组成、氨基酸三元组分组组成和k-间隔氨基酸分组配对组成的15类高维特征;
16、步骤2.3、使用efiss-es特征选择方法对上述15类高维特征分别进行特征降维处理。
17、进一步,所述efiss-es特征选择方法为:首先对经嵌入方法重要性得分eimp和统计方法重要性得分simp进行加权运算,得到特征排序结果impf:
18、impf=w×eimp+(1-w)×simp
19、其中,w为权值,设置为0.5;
20、随后,使用顺序正向搜索策略得到最终的特征选择结果。
21、进一步,所述步骤3的具体实现方法包括以下步骤:
22、步骤3.1、使用经降维处理后的15类特征训练10个机器学习模型,使用10折交叉验证技术得到评价指标的平均值,并对上述模型进行综合评估;
23、步骤3.2、针对评估指标,设置多个过滤条件,从数据、特征、模型角度出发,进行全局剪枝。
24、进一步,所述步骤3.1中的10个机器学习模型包括:决策树、朴素贝叶斯、k-近邻、线性判别分析、支持向量机、逻辑回归、梯度提升决策树、随机森林、轻量梯度提升机和极致梯度提升树。
25、进一步,所述步骤3.2中的过滤条件包括:
26、在特征和模型方面的过滤条件是通过计算不同模型的灵敏度和特异性之间的差值得到的:
27、rule 1:abs|sn-sp|≤3%
28、在数据方面的过滤条件是基于模型的准确率的均值avgacc和方差stdacc,得到最终的平衡数据集编号index:
29、rule 2:
30、进一步,所述步骤4的具体实现方法包括以下步骤:
31、步骤4.1、用于获取级联特征的集成结构是由多个相同的结构单元组成;在该集成结构中,每一层对应一个结构单元,每个单元包含若干个模型;在该集成结构中,首先要将步骤3中经过筛选的机器学习模型对应的输出组成特征向量;
32、步骤4.2、在每个结构单元中,将上述特征向量输入到10个机器学习模型中,得到模型的输出,按照特征和模型方面的过滤条件对模型进行筛选,将满足条件的模型输出进行连接,得到新的输出向量;将输出向量与输入向量进行连接,得到下一层结构单元的输入;
33、步骤4.3、对于集成结构中的每本文档来自技高网...
【技术保护点】
1.一种基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤1的具体实现方法包括以下步骤:
3.根据权利要求2所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤1.1和步骤1.2还包括使用CD-HIT工具以0.8作为阈值去除序列冗余的处理步骤。
4.根据权利要求1所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤2的具体实现方法包括以下步骤:
5.根据权利要求4所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述EFISS-ES特征选择方法为:首先对经嵌入方法重要性得分Eimp和统计方法重要性得分Simp进行加权运算,得到特征排序结果impf:
6.根据权利要求1所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤3的具体实现方法包括以下步骤:
7.根据权利要求6所述的基于全局剪枝和级
8.根据权利要求6所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤3.2中的过滤条件包括:
9.根据权利要求1所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤4的具体实现方法包括以下步骤:
10.根据权利要求1所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤5采用对步骤3到步骤4中涉及的代码进行封装,得到预测植物lncPEPs的方法lncPEPPred。
...【技术特征摘要】
1.一种基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:所述步骤1的具体实现方法包括以下步骤:
3.根据权利要求2所述的基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:所述步骤1.1和步骤1.2还包括使用cd-hit工具以0.8作为阈值去除序列冗余的处理步骤。
4.根据权利要求1所述的基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:所述步骤2的具体实现方法包括以下步骤:
5.根据权利要求4所述的基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:所述efiss-es特征选择方法为:首先对经嵌入方法重要性得分eimp和统计方法重要性得分simp进行加权运算,得到特征排序结果impf:
6.根据权利要求1所述的基于全局...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。