System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 非编码RNA中小开放阅读窗编码多肽能力预测方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>常州大学专利>正文

非编码RNA中小开放阅读窗编码多肽能力预测方法及系统技术方案

技术编号:41379767 阅读:6 留言:0更新日期:2024-05-20 10:22
本发明专利技术公开了非编码RNA中小开放阅读窗编码多肽能力预测方法及系统,涉及非编码RNA中sORF编码多肽能力预测技术领域,包括采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据,进行数据预处理;构建sORF序列和sORF序列对应的多肽序列特征空间;通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型;验证和评估DeepNCsORF模型。本发明专利技术通过多种特征表征来描述序列,填补了单一数据来源的不足,实现多路径信息融合,提出三路交互式注意力机制来更好地合成三个子网络的输出,充分挖掘不同网络之间的关联性,提取重要信息,预测效果优于仅考虑单一特征的方法。

【技术实现步骤摘要】

本专利技术涉及非编码rna中sorf编码多肽能力预测,特别是非编码rna中小开放阅读窗编码多肽能力预测方法及系统。


技术介绍

1、小开放阅读窗(small open readingframes,sorf),sorfs是非编码rna分子中的短开放阅读窗,其长度通常在50个核苷酸到数百个核苷酸之间。近年来研究表明,一些非编码rna分子中的sorfs能够编码功能性多肽,这些多肽在细胞过程和生理功能中扮演重要角色。本专利技术通过提取核苷酸和氨基酸两个方面的序列信息,构建了新的深度学习模型,实现了对非编码rna中小开放阅读窗编码多肽能力的预测。在测试数据集上与多个已有模型对比,结果表明本专利技术具有更高的准确率和鲁棒性。本专利技术对理解非编码rna的功能和调控机制具有重要意义,有助于揭示非编码rna分子中潜在的编码多肽序列,进一步研究这些多肽的功能和作用机制。

2、过去非编码rna(ncrna)被认为只起到调控基因表达的功能,而不会编码蛋白质。然而,随着技术的进步和研究的深入,越来越多的证据表明,一些ncrna中的小开放阅读窗(small open readingframes,sorfs)具有编码功能性多肽的能力。sorfs是ncrna分子中相对较短的开放阅读窗,其长度通常在50个核苷酸到数百个核苷酸之间。由于其长度相对较短,传统的蛋白质编码基因预测方法往往无法准确识别这些sorfs。然而,随着高通量测序技术的发展,研究发现一些ncrna中的sorfs可以编码功能性多肽。这些多肽对深入理解基因表达调控、细胞信号传导、疾病发生等生物学过程具有重要的意义,并为开发新的治疗策略和药物靶点提供了新的方向和机会。

3、然而,通过质谱等生物实验方法发现非编码rna中sorf翻译的多肽,存在实验复杂、实验重复度高、实验一致性难控制等问题,无法高通量发现非编码rna中sorf翻译的多肽。此外,现有的计算方法主要针对长开放阅读窗(longorf)的编码能力预测,对于短的sorf的编码能力预测不够准确,存在一些局限性,一方面现有的计算方法中大多数仅从氨基酸或者核苷酸的单一方向进行特征提取,且sorf的长度相对较短,传统的蛋白质编码基因预测方法通常依赖于长orf的特征表示,导致预测结果不佳。其次目前的计算模型没有抓住sorf与其翻译的多肽之间的关联信息,没有从sorf和其翻译的多肽两个方面学习sorf翻译能力,导致模型学习能力不足。

4、基于现有方法的不足,本专利技术提出了一种新的计算方法deepncsorf。本专利技术分别从核苷酸序列和氨基酸序列的角度进行特征构建。在特征构造方面,本专利技术以3mer为分割单元,将核苷酸序列转为图。对氨基酸序列,本项目将从比对信息、氨基酸生化特征以及预训练模型表示三个层面表征氨基酸序列。通过图卷积神经网络、rnn神经网络以及二维卷积神经网络,构建融合核苷酸和多肽序列的深度学习网络,预测非编码rna中sorf翻译多肽的能力。本专利技术填补了预测非编码rna中sorf编码能力不足的技术空白,具有重要的实际应用价值。


技术实现思路

1、鉴于上述存在的问题,提出了本专利技术。

2、因此,本专利技术所要解决的问题是:如何解决预测非编码rna中sorf编码能力不足的问题。

3、为解决上述技术问题,本专利技术提供如下技术方案:非编码rna中小开放阅读窗编码多肽能力预测方法,包括,采集非编码rna中小开放阅读窗sorf编码多肽和不编码多肽序列数据,进行数据预处理;构建sorf序列和sorf序列对应的多肽序列特征空间;通过多肽序列特征空间构建融合多空间视图的深度学习模型deepncsorf模型;验证和评估deepncsorf模型。

4、作为本专利技术所述非编码rna中小开放阅读窗编码多肽能力预测方法的一种优选方案,其中:所述多肽序列数据包括,获取translnc中的所有核苷酸和氨基酸序列,选择有1到4种实验证据支撑的序列数据作为正样本,将没有实验证据支撑的序列数据作为负样本,运用cd-hit按80%的阈值将多肽序列数据集中的冗余数据去除,按1:1比例随机抽取数据正负样本,构建数据集。

5、作为本专利技术所述非编码rna中小开放阅读窗编码多肽能力预测方法的一种优选方案,其中:所述多肽序列特征空间包括基于图的核苷酸序列表征、基于进化信息的多肽序列表征、基于比对信息的多肽序列表征、基于生化特征的多肽序列表征和基于大模型预训练多肽序列表征;所述基于图的核苷酸序列表征包括,将核苷酸序列划分为3mer片段,将给定的核苷酸序列按照连续的三个核苷酸为一组进行划分,得到一系列的3mer片段,对于长度为n的核苷酸序列,得到n-2个3mer片段,然后构建3mer图的节点,将每个3mer片段作为3mer图的节点,每个节点代表一个唯一的3mer片段,构建3mer图的边,对于相邻的3mer片段,添加一条边表示相邻的3mer片段之间的连接,如果两个3mer片段在原始核苷酸序列中是连续的,则两个3mer片段之间存在一条边,将核苷酸序列转换为3mer图后,得到一个图结构,其中节点表示3mer片段,边表示3mer片段之间的连接,将图结构联合图卷积网络。

6、作为本专利技术所述非编码rna中小开放阅读窗编码多肽能力预测方法的一种优选方案,其中:所述基于进化信息的多肽序列表征包括,多肽序列的进化信息使用位置特异性评分矩阵表示,收集已有物种的蛋白质序列,使用多序列比对算法clustalw,将多肽序列比对到收集到的蛋白质序列,根据比对结果,统计每个位置上氨基酸残基的频率和出现概率,得到初始的频率矩阵,频率矩阵的大小为m×n,其中,m为氨基酸的种类数目,n为比对序列的长度,对初始频率矩阵进行修正,修正方法为加权,得到修正后的矩阵,即为pssm,pssm矩阵的每一列代表一个氨基酸残基,每一行代表比对序列中的一个位置,矩阵中的每个元素表示位置上某个氨基酸残基的评分,若评分值高,则表示残基在位置上的保守性高,若评分值低,则表示残基在位置上的变异性高,对给定的长度为l的多肽序列,pssm矩阵的大小为l*20,l为多肽序列的长度,20种氨基酸在每个位置出现的评分;所述基于比对信息的多肽序列表征包括,多肽序列的比对信息用多肽的接触图表示,使用alphafold2获取多肽的三维结构,从多肽的结构数据中提取出每个氨基酸残基的原子坐标,选择在蛋白质结构中稳定的cα原子的坐标,对于每个氨基酸残基,使用欧氏距离计算氨基酸残基与其他残基之间的距离,并根据设定的阈值,判断是否存在接触,若两个氨基酸残基的距离小于阈值,则认为两个氨基酸残基之间存在接触,将对应的接触图元素设置为1,若两个氨基酸残基的距离大于阈值,则将对应的接触图元素设置为0,将所有氨基酸残基之间的接触情况记录在接触图中,形成一个对称的二维矩阵,矩阵的行和列对应于氨基酸的索引,得到的多肽序列的接触图。

7、作为本专利技术所述非编码rna中小开放阅读窗编码多肽能力预测方法的一种优选方案,其中:所述基于生化特征的多肽序列表征包括,多肽的序列的生化特征使用aaindex表示,其中aainde本文档来自技高网...

【技术保护点】

1.非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:包括,

2.如权利要求1所述的非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:所述多肽序列数据包括,获取TransLnc中的所有核苷酸和氨基酸序列,选择有1到4种实验证据支撑的序列数据作为正样本,将没有实验证据支撑的序列数据作为负样本,运用CD-HIT按80%的阈值将多肽序列数据集中的冗余数据去除,按1:1比例随机抽取数据正负样本,构建数据集。

3.如权利要求2所述的非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:所述sORF序列特征空间包括基于图的核苷酸序列表征、基于进化信息的多肽序列表征、基于比对信息的多肽序列表征、基于生化特征的多肽序列表征和基于大模型预训练多肽序列表征;

4.如权利要求3所述的非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:所述基于进化信息的多肽序列表征包括,多肽序列的进化信息使用位置特异性评分矩阵表示,收集已有物种的蛋白质序列,使用多序列比对算法ClustalW,将多肽序列比对到收集到的蛋白质序列,根据比对结果,统计每个位置上氨基酸残基的频率和出现概率,得到初始的频率矩阵,频率矩阵的大小为m×n,其中,m为氨基酸的种类数目,n为比对序列的长度,对初始频率矩阵进行修正,修正方法为加权,得到修正后的矩阵,即为PSSM,PSSM矩阵的每一列代表一个氨基酸残基,每一行代表比对序列中的一个位置,矩阵中的每个元素表示位置上某个氨基酸残基的评分,若评分值高,则表示残基在位置上的保守性高,若评分值低,则表示残基在位置上的变异性高,对给定的长度为L的多肽序列,PSSM矩阵的大小为L*20,L为多肽序列的长度,20种氨基酸在每个位置出现的评分;

5.如权利要求4所述的非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:所述基于生化特征的多肽序列表征包括,多肽的序列的生化特征使用AAindex表示,其中AAindex1是AAindex数据库中的一个子集,通过AAindex1将序列中每个氨基酸转化为544维度的向量,对给定长度为L的多肽序列,得到L*544的矩阵;

6.如权利要求5所述的非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:所述DeepNCsORF模型包括图卷积神经网络、长短记忆网络LSTM加一维卷积神经网络1DCNN网络以及二维卷积神经网络2DCNN网络三路神经网络,将核苷酸和氨基酸表征数据进行整合,核苷酸序列被表征为图,采用图卷积神经网络处理核苷酸信息,多肽序列被PSSM、AAindex1、ProtT5和ESM-2表示为矩阵,其中PSSM表示矩阵维度为L*20,AAindex1表示矩阵维度为L*544,ProtT5表示矩阵维度L*1024,ESM-2表示矩阵维度为L*1280;

7.如权利要求6所述的非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:所述验证和评估DeepNCsORF模型包括特异性、敏感度、准确率、马修斯相关系数、F1-score和平均准确率,表示为:

8.一种采用如权利要求1~7任一所述的非编码RNA中小开放阅读窗编码多肽能力预测方法的系统,其特征在于:包括,数据采集模块、多肽序列特征空间构建模块、DeepNCsORF模块及验证评估模块;

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的非编码RNA中小开放阅读窗编码多肽能力预测方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的非编码RNA中小开放阅读窗编码多肽能力预测方法的步骤。

...

【技术特征摘要】

1.非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:包括,

2.如权利要求1所述的非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:所述多肽序列数据包括,获取translnc中的所有核苷酸和氨基酸序列,选择有1到4种实验证据支撑的序列数据作为正样本,将没有实验证据支撑的序列数据作为负样本,运用cd-hit按80%的阈值将多肽序列数据集中的冗余数据去除,按1:1比例随机抽取数据正负样本,构建数据集。

3.如权利要求2所述的非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:所述sorf序列特征空间包括基于图的核苷酸序列表征、基于进化信息的多肽序列表征、基于比对信息的多肽序列表征、基于生化特征的多肽序列表征和基于大模型预训练多肽序列表征;

4.如权利要求3所述的非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:所述基于进化信息的多肽序列表征包括,多肽序列的进化信息使用位置特异性评分矩阵表示,收集已有物种的蛋白质序列,使用多序列比对算法clustalw,将多肽序列比对到收集到的蛋白质序列,根据比对结果,统计每个位置上氨基酸残基的频率和出现概率,得到初始的频率矩阵,频率矩阵的大小为m×n,其中,m为氨基酸的种类数目,n为比对序列的长度,对初始频率矩阵进行修正,修正方法为加权,得到修正后的矩阵,即为pssm,pssm矩阵的每一列代表一个氨基酸残基,每一行代表比对序列中的一个位置,矩阵中的每个元素表示位置上某个氨基酸残基的评分,若评分值高,则表示残基在位置上的保守性高,若评分值低,则表示残基在位置上的变异性高,对给定的长度为l的多肽序列,pssm矩阵的大小为l*20,l为多肽序列的长度,20种氨基酸在每个位置出现的评分;

5.如权利要求4所述的非编码rna中小开放阅读窗编码多肽能力预测方法,其特征在于:所述基于生化特...

【专利技术属性】
技术研发人员:杨森杨泽熙卢嘉毅倪嘉琦聂琪陈宏
申请(专利权)人:常州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1