一种RNA选择性剪接位点识别方法及系统技术方案

技术编号:21609107 阅读:38 留言:0更新日期:2019-07-13 19:28
本发明专利技术公开了一种RNA选择性剪接位点识别方法及系统,该方法包括以下步骤:选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型;利用训练集中数据训练深度学习神经网络模型;采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。本发明专利技术可以快速准确的识别并预测新的RNA选择性剪接位点。

A Method and System for RNA Selective Splicing Site Recognition

【技术实现步骤摘要】
一种RNA选择性剪接位点识别方法及系统
本公开涉及RNA选择性剪接位点识别
,尤其涉及一种基于深度学习算法的RNA选择性剪接位点识别方法及系统。
技术介绍
真核基因由多个外显子(编码区)和内含子(非编码区)组成。基因剪接位点是指一对外显子和内含子之间的边界。外显子-内含子边界称为“供体(Donor)”,内含子-外显子边界称为“受体(Accepter)”。前体mRNA删除内含子,并通过选择性剪接连接外显子,使基因最终表达为蛋白质,如图1所示。基因剪接是基因转录过程的重要组成部分,在转录组研究中起着关键作用。选择性剪接直接影响着基因表达的蛋白质多样性,能够准确的识别供体受体对于破解蛋白质主要结构、功能和相互作用是很重要的,也是生物信息的人工智能识别中的一项重要任务。专利技术人在研发过程中发现,现有采用生物测序的方式识别剪接位点往往费用非常昂贵,并且时间较久,浅层的机器学习识别准确率则并不理想。
技术实现思路
为了克服上述现有技术的不足,本公开提供了一种基于深度学习算法的RNA选择性剪接位点识别方法及系统,采用深度学习算法,构建一个对RNA剪接位点的序列识别并判断的深度学习神经网络模型,利用深度学习神经网络模型对RNA剪接位点信息进行识别,更加快速和方便。本公开的第一方面的一种RNA选择性剪接位点识别方法的技术方案是:一种RNA选择性剪接位点识别方法,该方法包括以下步骤:选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型;利用训练集中数据训练深度学习神经网络模型;采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。本公开的第二方面的一种RNA选择性剪接位点识别系统的技术方案是:一种RNA选择性剪接位点识别系统,该系统包括:数据选取模块,用于选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;模型搭建模块,用于搭建深度卷积神经网络和循环神经网络相结合的深度学习神经网络模型;模型训练模块,用于利用训练集中数据训练深度学习神经网络模型,提取并保存训练结果的权重参数;剪接位点识别模块,用于采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。本公开的第三方面的一种计算机可读存储介质的技术方案是:一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的RNA选择性剪接位点识别方法中的步骤。本公开的第四方面的一种计算机可读存储介质的技术方案是:一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如上所述的RNA选择性剪接位点识别方法中的步骤。通过上述技术方案,本公开的有益效果是:(1)本公开提出的深度学习神经网络模型将深度卷积神经网络(CNN)和循环神经网络(RNN)相结合,与传统的机器学习模型相比,提高了RNA剪接位点识别的准确率;(2)本公开利用验证集验证深度学习神经网络模型的学习特征的准确度,通过反复调参,得到最优深度学习神经网络模型,利用最优深度学习神经网络模型可以快速准确的识别并预测新的RNA选择性剪接位点;(3)本公开利用训练后的深度学习神经网络模型可对测试集中数据进行二分类识别和三分类识别,即能够识别RNA剪接位点与非剪接位点,还能够同时进行识别RNA受体剪接位点,RNA供体剪接位点与非剪接位点,成本低,提高了剪接位点识别的工作效率。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。图1是真核基因结构示意图;图2是实施例一RNA选择性剪接位点识别方法的流程图;图3是实施例一数据提取的流程图;图4是实施例一数据预处理的流程图;图5是实施例一数据集的结构图;图6是实施例三RNA选择性剪接位点识别系统的结构框图。具体实施方式下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本公开使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。名词解释:(1)RNA选择性剪接(也叫可变剪接)是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程,使得最终的蛋白产物会表现出不同或者是相互拮抗的功能和结构特性,或者在相同的细胞中由于表达水平的不同而导致不同的表型。(2)Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。实施例一本实施例提供一种基于深度学习算法的RNA选择性剪接位点识别方法,该方法包括以下步骤:数据获取,并预处理数据,以符合用于深度学习模型训练的数据格式;设计卷积神经网络与循环神经网络相结合的深度学习神经网络模型,并对深度学习神经网络进行训练,得到理想的训练数据识别结果后保存模型结构和权重参数;在模型训练成功后,可以进行对RNA选择性剪接位点序列进行识别,以进行RNA选择性剪接位点的判断。为了使本领域的技术人员更好地了解本申请的技术方案,下面对本实施例提出的RNA选择性剪接位点识别方法进行详细说明。请参阅附图2,所述RNA选择性剪接位点识别方法包括以下步骤:S101,选取剪接位点数据,并对剪接位点数据进行预处理,利用预处理后的数据构建包含训练集、验证集与测试集的碱基对数据集,生成相应的标签。具体地,所述步骤101中,选取的剪接位点数据包含两类:RNA选择性剪接位点数据和非RNA选择性剪接位点数据。每类剪接位点数据对象设有三种属性,分别为:data_accept、data_donor和label。获取到RNA选择性剪接位点数据和非RNA选择性剪接位点数据后,采用四位独热编码对获取的数据进行编码,并对编码后的数据进行归一化处理,形成待检测数据。具体地,所述步骤101的具体实现过程如下:S1011,获取RNA选择性剪接位点数据和非RNA选择性剪接位点数据。请参阅附图3,所述步骤1011中,获取RNA选择性剪接位点数据,其具体实现方式如下:以RNA供体剪接位点作为中心,选取上游和下游的200nt(nt代表核苷酸数)数据序列作为RNA供体选择性剪接位点数据(Data_donor_site),以RNA受体剪接位点作为中心,选取上游和下游的200nt(nt代表核苷酸数)数据序列作为RNA受体选择性剪接位点数据(Data_accepter_site)。具体地,所述步骤1011中,获取非RNA选择性剪接位点数据,其具体本文档来自技高网
...

【技术保护点】
1.一种RNA选择性剪接位点识别方法,其特征是,该方法包括以下步骤:选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型;利用训练集中数据训练深度学习神经网络模型;采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。

【技术特征摘要】
1.一种RNA选择性剪接位点识别方法,其特征是,该方法包括以下步骤:选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型;利用训练集中数据训练深度学习神经网络模型;采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。2.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,所述RNA选择性剪接位点数据和非RNA选择性剪接位点数据的获取方法为:以RNA供体剪接位点作为中心,选取其上游和下游一定长度的数据序列作为RNA供体选择性剪接位点数据;以RNA受体剪接位点作为中心,选取其上游和下游一定长度的数据序列作为RNA受体选择性剪接位点数据;选择RNA供体剪接位点与RNA受体剪接位点之间的中心作为非RNA剪接位点;以非RNA剪接位点作为中心,选取其上游和下游一定长度的数据序列作为非RNA选择性剪接位点数据。3.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,对选取的RNA选择性剪接位点数据和非RNA选择性剪接位点数据进行预处理的步骤包括:采用四位独热编码对选取的RNA选择性剪接位点数据和非RNA选择性剪接位点数据进行编码,得到二进制序列;并对编码后得到的二进制序列进行归一化处理。4.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,所述训练集、验证集和测试集分别包括预处理后的RNA受体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据,或者预处理后的RNA供体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据;非剪接位点对应的标签为0;剪接位点对应的标签为1;或者,所述训练集、验证集和测试集分别包括预处理后的RNA受体选择性剪接位点数据、RNA供体选择性剪接位点数据与非RNA选择性剪接位点数据;非剪接位点对应的标签为0;受体剪接位点对应的标签为1;供体剪接位点对应的标签为2。5.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,所述搭建深度卷积神经网络和循环神经网络相结合的深度学习神经网络模型的步...

【专利技术属性】
技术研发人员:孙晓勇李瑞魏庆功
申请(专利权)人:山东农业大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1