【技术实现步骤摘要】
一种RNA序列中M5C位点的识别预测方法及系统
本专利技术涉及M5C位点预测
,具体涉及一种RNA序列中M5C位点的识别预测方法及系统。
技术介绍
自然界中,DNA的转录后加工与修饰是一种常见的现象,RNA的代谢过程和功能受特定RNA序列基序、RNA形成二级结构并组装成核糖核蛋白复合物的能力的影响。基于上述效应,记录这些分子的转录后修饰过程和程度,如剪切输出、免疫耐受等,具有重要意义。因此,人们越来越重视研究转录后修饰在RNA中的发生率和生物学相关性。5-甲基胞嘧啶(5-methylcytosine,M5C)是RNA中的一类高丰度的转录后修饰(PTCM),已经在多种生物中被发现。通过RNA甲基转移酶的作用,RNA序列中的胞嘧啶的第5位碳原子发生修饰,被转换成M5C。M5C在tRNA二级结构的稳定性、氨基酸酰化和密码子识别、应激反应调控等生物学过程中发挥着重要的作用,从而得到了广泛的研究。精确识别RNA序列中M5C位点,对于理解M5C的功能作用和机制具有重要意义和帮助。一些实验方法,比如亚硫酸氢盐测序、M5C-rip、Aza-IP或miCLIP等已被开发用来识别M5C位点。亚硫酸氢盐测序使用亚硫酸氢盐来处理核酸序列,没有甲基化的胞嘧啶会转化为尿嘧啶,而甲基化的胞嘧啶不发生改变,可以由此识别位点。M5C-rip技术来源于RNA结合蛋白免疫沉淀(RNABindingProteinImmunoprecipitation),RNABindingProteinImmunoprecipitation是研究细胞内RNA ...
【技术保护点】
1.一种RNA序列中M5C位点的识别预测方法,其特征在于,包括以下步骤:/nS1:构建基准数据集/n建立基准数据集,将基准数据集划分为两个派生数据集,分别为训练集与测试集;/nS2:利用特征表示RNA片段/n利用KNF、KSNPF和pseDNC三个特征将基准数据集的RNA片段编码为特征向量;/nS3:对特征进行优化选择/n利用NSGAII方法对步骤S2中的特征向量进行优化选择;/nS4:构建预测模型/n利用SVM作为学习器基于特征向量进行训练,建立预测模型;/nS5:利用模型进行预测/n利用步骤S4中的预测模型对基准数据集中的RNA片段样本上M5C位点进行预测。/n
【技术特征摘要】
1.一种RNA序列中M5C位点的识别预测方法,其特征在于,包括以下步骤:
S1:构建基准数据集
建立基准数据集,将基准数据集划分为两个派生数据集,分别为训练集与测试集;
S2:利用特征表示RNA片段
利用KNF、KSNPF和pseDNC三个特征将基准数据集的RNA片段编码为特征向量;
S3:对特征进行优化选择
利用NSGAII方法对步骤S2中的特征向量进行优化选择;
S4:构建预测模型
利用SVM作为学习器基于特征向量进行训练,建立预测模型;
S5:利用模型进行预测
利用步骤S4中的预测模型对基准数据集中的RNA片段样本上M5C位点进行预测。
2.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,基准数据集的生成过程如下:
S11:通过GEO数据库中ID为GSE90963的记录获取高阈值的M5C位点信息;
S12:根据步骤S11中高阈值M5C位点在基因组中的位置信息,截取人类基因转录组中位于其两侧各20个碱基的RNA片段构成正样本,所有的正样本构成的数据集被命名为P1;
S13:排除GSE90963中记录的所有可能的M5C位点,根据基因转录组中其余的C位点及两侧各20个碱基的RNA片段构成负样本,将该组片段被命名为N1;
S14:使用CD-HIT去除P1中的冗余序列,即生成含有186例阳性样本的P2;使用CD-HIT去除N1中的冗余序列并从中随机选择186例阴性样本得到N2;
S15:将各含有186例样本的P2和N2合并得到基准数据集。
3.根据权利要求2所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S14中,利用CD-HIT去除P1和N1中的冗余序列,截断值分别为0.7。
4.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,训练集包括基准数据集的正样本和负样本中按比例各选取的149个RNA片段,样本剩余部分作为测试集。
5.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,所有数据集中RNA片段的长度均为41个碱基,将每个中心碱基处有一个潜在M5C位点的RNA片段表达如下:
Rξ(C)=N-ξN-(ξ-1)…N-1CN1…N+(ξ-1)Nξ
其中,N-ξ代表中心胞嘧啶上游的第ξ个核苷酸,而N+ξ代表中心胞嘧啶下游第ξ个核苷酸;
将上式简化如下:
R20(C)=N1N2…N20CN22…N40N41
其中,Ni(i=1,2,…20,21…41)表示RNA片段的第i位的核苷酸,为RNA中4个核苷酸碱基中的任意一个,即:
Ni∈{A,C,G,U}
其中,A表示腺嘌呤;C表示胞嘧啶;G表示鸟嘌呤;U表示尿嘧啶。
6.根据权利要...
【专利技术属性】
技术研发人员:祝小雷,周巍巍,王红,刘宇峰,陈潇,
申请(专利权)人:安徽农业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。