【技术实现步骤摘要】
本专利技术涉及非编码rna中sorf编码多肽能力预测,特别是非编码rna中小开放阅读窗编码多肽能力预测方法及系统。
技术介绍
1、小开放阅读窗(small open readingframes,sorf),sorfs是非编码rna分子中的短开放阅读窗,其长度通常在50个核苷酸到数百个核苷酸之间。近年来研究表明,一些非编码rna分子中的sorfs能够编码功能性多肽,这些多肽在细胞过程和生理功能中扮演重要角色。本专利技术通过提取核苷酸和氨基酸两个方面的序列信息,构建了新的深度学习模型,实现了对非编码rna中小开放阅读窗编码多肽能力的预测。在测试数据集上与多个已有模型对比,结果表明本专利技术具有更高的准确率和鲁棒性。本专利技术对理解非编码rna的功能和调控机制具有重要意义,有助于揭示非编码rna分子中潜在的编码多肽序列,进一步研究这些多肽的功能和作用机制。
2、过去非编码rna(ncrna)被认为只起到调控基因表达的功能,而不会编码蛋白质。然而,随着技术的进步和研究的深入,越来越多的证据表明,一些ncrna中的小开放阅读窗(sma
...【技术保护点】
1.非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:包括,
2.如权利要求1所述的非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:所述多肽序列数据包括,获取TransLnc中的所有核苷酸和氨基酸序列,选择有1到4种实验证据支撑的序列数据作为正样本,将没有实验证据支撑的序列数据作为负样本,运用CD-HIT按80%的阈值将多肽序列数据集中的冗余数据去除,按1:1比例随机抽取数据正负样本,构建数据集。
3.如权利要求2所述的非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:所述sORF序列特征空间包括基于图的核苷酸序
...【技术特征摘要】
1.非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:包括,
2.如权利要求1所述的非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:所述多肽序列数据包括,获取translnc中的所有核苷酸和氨基酸序列,选择有1到4种实验证据支撑的序列数据作为正样本,将没有实验证据支撑的序列数据作为负样本,运用cd-hit按80%的阈值将多肽序列数据集中的冗余数据去除,按1:1比例随机抽取数据正负样本,构建数据集。
3.如权利要求2所述的非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:所述sorf序列特征空间包括基于图的核苷酸序列表征、基于进化信息的多肽序列表征、基于比对信息的多肽序列表征、基于生化特征的多肽序列表征和基于大模型预训练多肽序列表征;
4.如权利要求3所述的非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:所述基于进化信息的多肽序列表征包括,多肽序列的进化信息使用位置特异性评分矩阵表示,收集已有物种的蛋白质序列,使用多序列比对算法clustalw,将多肽序列比对到收集到的蛋白质序列,根据比对结果,统计每个位置上氨基酸残基的频率和出现概率,得到初始的频率矩阵,频率矩阵的大小为m×n,其中,m为氨基酸的种类数目,n为比对序列的长度,对初始频率矩阵进行修正,修正方法为加权,得到修正后的矩阵,即为pssm,pssm矩阵的每一列代表一个氨基酸残基,每一行代表比对序列中的一个位置,矩阵中的每个元素表示位置上某个氨基酸残基的评分,若评分值高,则表示残基在位置上的保守性高,若评分值低,则表示残基在位置上的变异性高,对给定的长度为l的多肽序列,pssm矩阵的大小为l*20,l为多肽序列的长度,20种氨基酸在每个位置出现的评分;
5.如权利要求4所述的非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:所述基于生化特...
【专利技术属性】
技术研发人员:杨森,杨泽熙,卢嘉毅,倪嘉琦,聂琪,陈宏,
申请(专利权)人:常州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。