一种RNA序列中M5C位点的识别预测方法及系统技术方案

技术编号:26381340 阅读:55 留言:0更新日期:2020-11-19 23:50
本发明专利技术公开了一种RNA序列中M5C位点的识别预测方法及系统,属于M5C位点预测技术领域,包括以下步骤:S1:构建基准数据集;S2:利用特征表示RNA片段;S3:对特征进行优化选择;S4:构建预测模型;S5:利用模型进行预测。本发明专利技术构建了一个平衡的数据集Mat372,在此数据集的基础上,利用KNF、KSNPF和pseDNC三个特征对RNA片段进行编码,对特征进行优化选择后,利用SVM建立了M5C‑NSGAII预测模型,能够对RNA序列中的5‑甲基胞嘧啶(M5C)位点进行准确识别,值得被推广使用。

【技术实现步骤摘要】
一种RNA序列中M5C位点的识别预测方法及系统
本专利技术涉及M5C位点预测
,具体涉及一种RNA序列中M5C位点的识别预测方法及系统。
技术介绍
自然界中,DNA的转录后加工与修饰是一种常见的现象,RNA的代谢过程和功能受特定RNA序列基序、RNA形成二级结构并组装成核糖核蛋白复合物的能力的影响。基于上述效应,记录这些分子的转录后修饰过程和程度,如剪切输出、免疫耐受等,具有重要意义。因此,人们越来越重视研究转录后修饰在RNA中的发生率和生物学相关性。5-甲基胞嘧啶(5-methylcytosine,M5C)是RNA中的一类高丰度的转录后修饰(PTCM),已经在多种生物中被发现。通过RNA甲基转移酶的作用,RNA序列中的胞嘧啶的第5位碳原子发生修饰,被转换成M5C。M5C在tRNA二级结构的稳定性、氨基酸酰化和密码子识别、应激反应调控等生物学过程中发挥着重要的作用,从而得到了广泛的研究。精确识别RNA序列中M5C位点,对于理解M5C的功能作用和机制具有重要意义和帮助。一些实验方法,比如亚硫酸氢盐测序、M5C-rip、Aza-IP或miCLIP等已被开发用来识别M5C位点。亚硫酸氢盐测序使用亚硫酸氢盐来处理核酸序列,没有甲基化的胞嘧啶会转化为尿嘧啶,而甲基化的胞嘧啶不发生改变,可以由此识别位点。M5C-rip技术来源于RNA结合蛋白免疫沉淀(RNABindingProteinImmunoprecipitation),RNABindingProteinImmunoprecipitation是研究细胞内RNA和蛋白结合情况的一种技术,是了解转录后调控网络动态过程的强有力工具,并且可以帮助找到miRNA的调节靶点。RIP是一种新兴的技术,运用针对目标蛋白的抗体沉淀出相应的RNA-蛋白复合物,然后经过分离纯化,结合在复合物上的RNA就可以被分析。RIP可以被视为一个类似普遍使用的染色质免疫沉淀ChIP技术的应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP的优化条件实验不同于ChIP实验(如复合物不需要固定,RIP反应体系中的试剂和抗体必须不包含RNA酶,抗体需要通过RIP实验进行验证等等)。通过将PCR产物克隆成载体并加以测序,可以提升测序的成功概率,这种方法称为BSP-克隆测序法。miCLIP可以交联RNA-m6A抗体结合位点,当抗体结合的RNA被逆转录时,这些特异性位点会发生突变。这种独有的突变特征(例如,C-T转换或截短)的测序可以精确定位m6a,然后在此基础上发展一个可定位M5C的方法。然而,这些技术既费时又昂贵,此外,测序技术的快速发展导致RNA序列的爆炸性增长,这就需要更快、更经济的分析方法。计算预测方法由于速度快、成本低,为RNA序列中M5C位点的识别提供了另一类方法。据悉,已有若干研究小组发展了一些计算方法用于预测RNA的M5C位点。Feng等人开发了一个模型来预测人类RNA的M5C位点。该模型建立在120个阳性样本和120个阴性样本的平衡数据集的基础上,以包含三种RNA理化性质的伪二核苷酸组合(PseDNC)作为特征对RNA序列进行编码,并采用支持向量机(SVM)作为模型的分类器。Qiu等人提出的另一个模型iRNAM5C-PseDNC,是基于一个包含475个正样本和1425个负样本的不平衡数据集建立的。该模型应用SVM作为分类器,但采用了改进的PseDNC对RNA序列进行编码。最近,Zhang等人提出了一种名为M5C-HPCR的模型。在该方法中,引入了一种启发式算法来选择部分PseDNC特征,然后采用集成方法建立了模型。M5C-HPCR分别在Feng等人和Qiu等人使用的平衡和不平衡数据集上进行了验证。然而当前此类方法都只使用PseDNC对RNA序列进行编码,其它一些序列编码方法,如K-核苷酸频率(K-nucleotidefrequency,KNF),K-间隔核苷酸对频率(K-spacednucleotidepairfrequency,KSNPF)等,都还没有被用于预测M5C位点。虽然已经有人发展了一些计算方法用于预测RNAM5C位点,但是这些方法在使用中存在预测精度不够高等问题,因此,迫切需要开发更精确的计算方法来有效识别预测M5C位点。为解决上述问题,我们提出一种RNA序列中M5C位点的识别预测方法及系统。
技术实现思路
本专利技术所要解决的技术问题在于:如何解决现有技术中M5C位点识别方法在使用时存在的预测精度不够高等问题,提供了一种RNA序列中M5C位点的识别预测方法。如图1所示,本专利技术是通过以下技术方案解决上述技术问题的,本专利技术包括以下步骤:S1:构建基准数据集建立基准数据集,将基准数据集分割成两个派生数据集分别为训练集与测试集,各数据集中的正子集包含的RNA片段拥有可以被修饰成M5C的中心胞嘧啶,负子集包含的RNA片段拥有不可以被修饰成M5C的中心胞嘧啶;S2:利用特征表示RNA片段利用KNF(K-核苷酸频率)、KSNPF(K-间隔核苷酸对频率)和pseDNC(伪二核苷酸组合)三个特征将基准数据集的RNA片段编码为特征向量;S3:对特征及支持向量机的超参数进行优化选择利用NSGAII方法对步骤S2中的特征向量及支持向量机的超参数进行优化选择;S4:构建M5C-NSGAII预测模型利用SVM(支持向量机)作为学习器在训练集上进行训练,建立M5C-NSGAII预测模型;S5:利用模型对RNA序列中可能的M5C位点进行预测利用步骤S4中的M5C-NSGAII预测模型对RNA片段样本上可能的M5C位点进行预测。更进一步地,在所述步骤S1中,基准数据集的生成过程如下:S11:通过GEO数据库中ID为GSE90963的记录获取高阈值的M5C位点信息;S12:根据步骤S11中高阈值M5C位点在基因组中的位置信息,截取人类基因转录组中位于其两侧各20个碱基的RNA片段构成正样本,所有的正样本构成的数据集被命名为P1;S13:排除GSE90963中记录的所有可能的M5C位点,根据基因转录组中其余的C位点及两侧各20个碱基的RNA片段构成负样本,将该组片段被命名为N1;S14:去除P1和N1中的冗余序列,由于负样本的数量比较多因此采用下采样方法获得与正样本同样数量的负样本,即生成含有186例阳性样本的P2和含有186例阴性样本的N2;S15:将各含有186例样本的P2和N2合并得到基准数据集Mat372。更进一步地,在所述步骤S14中,利用CD-HIT去除P1和N1中的冗余序列,截断值分别为0.7。更进一步地,在所述步骤S1中,训练集包括基准数据集的正样本和负样本中按比例各选取的149个RNA片段,样本剩余部分作为测试集。更进一步地,在所述步骤S1中,所有数据集中RNA片段的长度均为41,将每个中心碱基处有一个潜在M5C位点的RNA样本(片段)表达如下:Rξ(C)=N-ξN-(ξ-1)…N-1CN1…N+(ξ-1)Nξ本文档来自技高网
...

【技术保护点】
1.一种RNA序列中M5C位点的识别预测方法,其特征在于,包括以下步骤:/nS1:构建基准数据集/n建立基准数据集,将基准数据集划分为两个派生数据集,分别为训练集与测试集;/nS2:利用特征表示RNA片段/n利用KNF、KSNPF和pseDNC三个特征将基准数据集的RNA片段编码为特征向量;/nS3:对特征进行优化选择/n利用NSGAII方法对步骤S2中的特征向量进行优化选择;/nS4:构建预测模型/n利用SVM作为学习器基于特征向量进行训练,建立预测模型;/nS5:利用模型进行预测/n利用步骤S4中的预测模型对基准数据集中的RNA片段样本上M5C位点进行预测。/n

【技术特征摘要】
1.一种RNA序列中M5C位点的识别预测方法,其特征在于,包括以下步骤:
S1:构建基准数据集
建立基准数据集,将基准数据集划分为两个派生数据集,分别为训练集与测试集;
S2:利用特征表示RNA片段
利用KNF、KSNPF和pseDNC三个特征将基准数据集的RNA片段编码为特征向量;
S3:对特征进行优化选择
利用NSGAII方法对步骤S2中的特征向量进行优化选择;
S4:构建预测模型
利用SVM作为学习器基于特征向量进行训练,建立预测模型;
S5:利用模型进行预测
利用步骤S4中的预测模型对基准数据集中的RNA片段样本上M5C位点进行预测。


2.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,基准数据集的生成过程如下:
S11:通过GEO数据库中ID为GSE90963的记录获取高阈值的M5C位点信息;
S12:根据步骤S11中高阈值M5C位点在基因组中的位置信息,截取人类基因转录组中位于其两侧各20个碱基的RNA片段构成正样本,所有的正样本构成的数据集被命名为P1;
S13:排除GSE90963中记录的所有可能的M5C位点,根据基因转录组中其余的C位点及两侧各20个碱基的RNA片段构成负样本,将该组片段被命名为N1;
S14:使用CD-HIT去除P1中的冗余序列,即生成含有186例阳性样本的P2;使用CD-HIT去除N1中的冗余序列并从中随机选择186例阴性样本得到N2;
S15:将各含有186例样本的P2和N2合并得到基准数据集。


3.根据权利要求2所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S14中,利用CD-HIT去除P1和N1中的冗余序列,截断值分别为0.7。


4.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,训练集包括基准数据集的正样本和负样本中按比例各选取的149个RNA片段,样本剩余部分作为测试集。


5.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,所有数据集中RNA片段的长度均为41个碱基,将每个中心碱基处有一个潜在M5C位点的RNA片段表达如下:
Rξ(C)=N-ξN-(ξ-1)…N-1CN1…N+(ξ-1)Nξ
其中,N-ξ代表中心胞嘧啶上游的第ξ个核苷酸,而N+ξ代表中心胞嘧啶下游第ξ个核苷酸;
将上式简化如下:
R20(C)=N1N2…N20CN22…N40N41
其中,Ni(i=1,2,…20,21…41)表示RNA片段的第i位的核苷酸,为RNA中4个核苷酸碱基中的任意一个,即:
Ni∈{A,C,G,U}
其中,A表示腺嘌呤;C表示胞嘧啶;G表示鸟嘌呤;U表示尿嘧啶。


6.根据权利要...

【专利技术属性】
技术研发人员:祝小雷周巍巍王红刘宇峰陈潇
申请(专利权)人:安徽农业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1