一种RNA序列中M5C位点的识别预测方法及系统技术方案

技术编号：26381340 阅读：62 留言：0更新日期：2020-11-19 23:50

本发明专利技术公开了一种RNA序列中M5C位点的识别预测方法及系统，属于M5C位点预测技术领域，包括以下步骤：S1：构建基准数据集；S2：利用特征表示RNA片段；S3：对特征进行优化选择；S4：构建预测模型；S5：利用模型进行预测。本发明专利技术构建了一个平衡的数据集Mat372,在此数据集的基础上,利用KNF、KSNPF和pseDNC三个特征对RNA片段进行编码,对特征进行优化选择后，利用SVM建立了M5C‑NSGAII预测模型,能够对RNA序列中的5‑甲基胞嘧啶(M5C)位点进行准确识别，值得被推广使用。

全部详细技术资料下载

【技术实现步骤摘要】
一种RNA序列中M5C位点的识别预测方法及系统
本专利技术涉及M5C位点预测
，具体涉及一种RNA序列中M5C位点的识别预测方法及系统。
技术介绍
自然界中，DNA的转录后加工与修饰是一种常见的现象,RNA的代谢过程和功能受特定RNA序列基序、RNA形成二级结构并组装成核糖核蛋白复合物的能力的影响。基于上述效应,记录这些分子的转录后修饰过程和程度,如剪切输出、免疫耐受等,具有重要意义。因此,人们越来越重视研究转录后修饰在RNA中的发生率和生物学相关性。5-甲基胞嘧啶(5-methylcytosine,M5C)是RNA中的一类高丰度的转录后修饰(PTCM),已经在多种生物中被发现。通过RNA甲基转移酶的作用,RNA序列中的胞嘧啶的第5位碳原子发生修饰,被转换成M5C。M5C在tRNA二级结构的稳定性、氨基酸酰化和密码子识别、应激反应调控等生物学过程中发挥着重要的作用,从而得到了广泛的研究。精确识别RNA序列中M5C位点,对于理解M5C的功能作用和机制具有重要意义和帮助。一些实验方法，比如亚硫酸氢盐测序、M5C-rip、Aza-IP或本文档来自技高网...

【技术保护点】
1.一种RNA序列中M5C位点的识别预测方法，其特征在于，包括以下步骤：/nS1：构建基准数据集/n建立基准数据集，将基准数据集划分为两个派生数据集，分别为训练集与测试集；/nS2：利用特征表示RNA片段/n利用KNF、KSNPF和pseDNC三个特征将基准数据集的RNA片段编码为特征向量；/nS3：对特征进行优化选择/n利用NSGAII方法对步骤S2中的特征向量进行优化选择；/nS4：构建预测模型/n利用SVM作为学习器基于特征向量进行训练，建立预测模型；/nS5：利用模型进行预测/n利用步骤S4中的预测模型对基准数据集中的RNA片段样本上M5C位点进行预测。/n

【技术特征摘要】
1.一种RNA序列中M5C位点的识别预测方法，其特征在于，包括以下步骤：
S1：构建基准数据集
建立基准数据集，将基准数据集划分为两个派生数据集，分别为训练集与测试集；
S2：利用特征表示RNA片段
利用KNF、KSNPF和pseDNC三个特征将基准数据集的RNA片段编码为特征向量；
S3：对特征进行优化选择
利用NSGAII方法对步骤S2中的特征向量进行优化选择；
S4：构建预测模型
利用SVM作为学习器基于特征向量进行训练，建立预测模型；
S5：利用模型进行预测
利用步骤S4中的预测模型对基准数据集中的RNA片段样本上M5C位点进行预测。

2.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法，其特征在于：在所述步骤S1中，基准数据集的生成过程如下：
S11：通过GEO数据库中ID为GSE90963的记录获取高阈值的M5C位点信息；
S12：根据步骤S11中高阈值M5C位点在基因组中的位置信息，截取人类基因转录组中位于其两侧各20个碱基的RNA片段构成正样本，所有的正样本构成的数据集被命名为P1；
S13：排除GSE90963中记录的所有可能的M5C位点,根据基因转录组中其余的C位点及两侧各20个碱基的RNA片段构成负样本，将该组片段被命名为N1；
S14：使用CD-HIT去除P1中的冗余序列,即生成含有186例阳性样本的P2；使用CD-HIT去除N1中的冗余序列并从中随机选择186例阴性样本得到N2；
S15：将各含有186例样本的P2和N2合并得到基准数据集。

3.根据权利要求2所述的一种RNA序列中M5C位点的识别预测方法，其特征在于：在所述步骤S14中，利用CD-HIT去除P1和N1中的冗余序列，截断值分别为0.7。

4.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法，其特征在于：在所述步骤S1中，训练集包括基准数据集的正样本和负样本中按比例各选取的149个RNA片段,样本剩余部分作为测试集。

5.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法，其特征在于：在所述步骤S1中，所有数据集中RNA片段的长度均为41个碱基,将每个中心碱基处有一个潜在M5C位点的RNA片段表达如下：
Rξ(C)＝N-ξN-(ξ-1)…N-1CN1…N+(ξ-1)Nξ
其中，N-ξ代表中心胞嘧啶上游的第ξ个核苷酸,而N+ξ代表中心胞嘧啶下游第ξ个核苷酸；
将上式简化如下：
R20(C)＝N1N2…N20CN22…N40N41
其中，Ni(i＝1,2,…20,21…41)表示RNA片段的第i位的核苷酸,为RNA中4个核苷酸碱基中的任意一个,即：
Ni∈{A,C,G,U}
其中，A表示腺嘌呤；C表示胞嘧啶；G表示鸟嘌呤；U表示尿嘧啶。

6.根据权利要...

【专利技术属性】
技术研发人员：祝小雷，周巍巍，王红，刘宇峰，陈潇，
申请(专利权)人：安徽农业大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人