一种基于BRNN模型和统计检验的RNAm6A修饰位点的鉴定方法技术

技术编号:30228188 阅读:16 留言:0更新日期:2021-09-29 09:56
本发明专利技术公开了一种基于BRNN模型和统计检验的RNA m6A修饰位点的鉴定方法,结合eCLIP实验流程构建了meCLIP标准文库和简化流程的文库;在分析meCLIP数据在m6A位点上下游的截断和突变特征后,开发了相关软件用于在单碱基水平上鉴定m6A位点,且更简便快速制备m6A单位点鉴定用文库。鉴定用文库。鉴定用文库。

【技术实现步骤摘要】
一种基于BRNN模型和统计检验的RNA m6A修饰位点的鉴定方法


[0001]本专利技术涉及一种RNAm6A修饰位点鉴定方法,特别是涉及一种基于BRNN模型和统计检验的RNA m6A修饰位点的鉴定方法。

技术介绍

[0002]m6A修饰在mRNA和lncRNA上分布广泛,具有多样的生物学功能,涉及mRNA剪切、转运出核、稳定性和翻译效率等多个方面。然而,m6A的研究却不像5mC或m5C那样,可以使用重亚硫酸盐处理将未甲基化的胞嘧啶转化成尿嘧啶,通过鉴定测序结果中碱基的转换从而精确鉴定和定量甲基化修饰水平。随着对m6A功能研究的开展,如何在单碱基水平上正确鉴定出m6A位点已成为限制深入研究的主要因素。
[0003]单碱基水平的m6A鉴定的高通量方法主要有三种:miCLIP

seq(m6Aindividual

nucleotide resolution cross

linking and immunoprecipitation)、Mazter

seq(MazF digestion)和DART

seq(deamination adjacent to RNA modification targets)。其中Mazter

seq局限于MazF酶切位点ACA序列,而DART

seq则受制于融合蛋白对m6A模式序列的识别。miCLIP

seq不受酶切效率和融合蛋白识别位点限制,理论上可以根据氨基酸残基产生的截断和突变的位置来识别所有可能的m6A位点。然而其复杂的流程减少了最终RNA的回收量和文库复杂度,需要增加PCR扩增循环数来弥补,导致测序后可用数据极少。

技术实现思路

[0004]专利技术目的:为了克服现有技术中的不足,本专利技术的目的是提供一种基于BRNN模型和统计检验的RNA m6A修饰位点的鉴定方法,针对meCLIP数据,可以在单碱基水平准确鉴定m6A修饰位点。
[0005]技术方案:本专利技术的一种基于BRNN(bidirectional recurrent neural network)模型和统计检验的RNA m6A修饰位点的鉴定方法,包括以下步骤,
[0006](1)选取样本,并划分为训练集、验证集和测试集;
[0007](2)构建双向循环神经网络,用于将含有和不含有m6A的序列进行分类;
[0008](3)利用训练集和验证集中序列的尖端和突变特征对所构建的双向循环神经网络进行训练,优化神经网络模型参数;
[0009](4)利用测试集中的碱基序列样本对优化后的双向循环网络进行测试,统计识别结果;
[0010](5)将识别为保护m6A的碱基序列按照边缘reads覆盖度的差异进行合并处理;
[0011](6)对A及其下游1nt的截断数量统计检验,得到m6A单位点鉴定结果。
[0012]步骤(1)中,提取位于RIP

seq(methyl

RNA immunoprecipitation)中m6A修饰区间内的CTKtools(CLIP tools kit)鉴定出的m6A位点周围的序列截断和突变信息作为正例,随机选取不含A的序列作为负例,
[0013]负例样本从蛋白编码基因上随机抽取,并满足以下要求:1)不在已鉴定的m6A位点
10nt的范围内;2)m6A位点上下游10nt内不含有A。
[0014]其中,CTKtools鉴定的用于构成正例的m6A位点需要满足以下两个条件:1)位于meRIP的m6A修饰区间内;2)统计meRIP数据相应m6A修饰区间的IP reads和Input reads的覆盖度,保留IP reads/Input reads≥2的m6A位点。
[0015]上述鉴定方法还包括对样本特征提取及标准化处理,统计meCLIP

gelfree数据中正负例样本的reads截断和突变数量,如果该样本序列上的reads截断或突变大于11个则保留。
[0016]步骤(5)中,通过计算m6A序列左右边界上的reads覆盖度进行合并处理。
[0017]本专利技术所述的双向循环网络的构建和训练所使用的样本来自CTKtools鉴定的m6A位点周围的序列和不含A的序列,分别用作正例和负例样本。两中序列间的截断和突变特征较为接近,较难以区分和训练一个分类准确率较高的神经网络模型。因此在这基础上,本专利技术对A及其下游1nt的截断特征进行统计检验来进一步提高m6A单位点的鉴定准确率。
[0018]专利技术原理:meCLIP的实验方法不使用放射性元素显影,减少现有技术对实验条件的要求。其流程没有去处游离RNA,减少了对其实样本的要求。但是这些RNA片段会影响m6A位点的鉴定,产生假阳性结果。鉴于该文库数据的特点,本专利技术使用双向循环网络来判断含有m6A的序列,从而大概率的减少游离RNA对后续单位点判定的影响。最后通过检测A及其下游1nt处的截断显著性来达到单碱基分辨率。
[0019]有益效果:本专利技术结合eCLIP(enhanced cross

linking and immunoprecipitation)实验流程构建了meCLIP(m6A enhanced cross

linking and immunoprecipitation)标准文库和简化流程的文库;在分析meCLIP数据在m6A位点上下游的截断和突变特征后,开发了相关软件用于在单碱基水平上鉴定m6A位点,且更简便快速制备m6A单位点鉴定用文库。
[0020]鉴于miCLIP文库制备流程过于复杂及其可用数据量少的缺点,本专利技术结合已报道的eCLIP实验流程制备了meCLIP

gel和meCLIP

gelfree文库,分析并揭示了该类型文库中m6A位点的截断和突变特征。针对meCLIP数据的特点,本专利技术开发了一种结合BRNN和统计检验的方法用于鉴定m6A位点,为后续m6A相关研究奠定基础。
附图说明
[0021]图1是本专利技术的单碱基m6A位点鉴定原理流程图。
[0022]图2是为m6A分类器的架构示意图;其中,图A为m6A分类器的工作流程,图B为比较不同架构和参数下分类器的分类能力示意图。
[0023]图3是循环神经网络结和统计检验的分析结果的评估;图A为比较m6A簇的reads覆盖度结果,浅灰:没鉴定出m6A的簇;深灰:鉴定出m6A的簇;图B为m6A位点的饱和曲线。
[0024]图4是m6A位点的分布特征和样本间重复性结果;其中,图A为m6A在转录本上的分布密度;浅色曲线为MaximaH制备的文库,深色曲线为Superscript III制备的文库;图B为m6A在转录组水平上的分布特征;图C为meCLIP

gelfree数据共有的m6A本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BRNN模型和统计检验的RNA m6A修饰位点的鉴定方法,其特征在于:包括以下步骤,(1)选取样本,并划分为训练集、验证集和测试集;(2)构建双向循环神经网络,用于将含有和不含有m6A的序列进行分类;(3)利用训练集和验证集中序列的尖端和突变特征对所构建的双向循环神经网络进行训练,优化神经网络模型参数;(4)利用测试集中的碱基序列样本对优化后的双向循环网络进行测试,统计识别结果;(5)将识别为保护m6A的碱基序列按照边缘reads覆盖度的差异进行合并处理;(6)对A及其下游1nt的截断数量统计检验,得到m6A单位点鉴定结果。2.根据权利要求1所述的基于BRNN模型和统计检验的RNA m6A修饰位点的鉴定方法,其特征在于:步骤(1)中,提取位于RIP

seq中m6A修饰区间内的CTKtools鉴定出的m6A位点周围的序列截断和突变信息作为正例,随机选取不含A的序列作为负例。3.根据权利要求1所述的基于BRNN模型和统计检验的RNA m6A修饰位点的鉴定方法,其特征在于:负例样本从蛋白编码基因...

【专利技术属性】
技术研发人员:王帅许志晖王海彦王舒
申请(专利权)人:南京农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1