直接RNA测序的多组学分析方法、系统、设备及存储介质技术方案

技术编号:33374952 阅读:21 留言:0更新日期:2022-05-11 22:42
本申请实施例提供一种直接RNA测序的多组学分析方法、系统、设备及存储介质,涉及生物信息处理技术领域。该方法包括:获取直接RNA测序的测序数据;将测序数据与参考基因组比对,获得测序比对数据;根据测序比对数据进行全长转录本鉴定,获得全长转录本序列数据;基于全长转录本序列数据对测序数据进行转录本定量处理,获得转录本定量数据;根据甲基化修饰预测模型处理测序数据,获得甲基化修饰数据;根据新生mRNA预测模型处理全长转录本序列数据,获得新生mRNA数据;根据全长转录本序列数据、转录本定量数据、甲基化修饰数据和新生mRNA数据进行关联性分析,获得直接RNA测序多维度信息。该方法可以实现测序精度的技术效果。该方法可以实现测序精度的技术效果。该方法可以实现测序精度的技术效果。

【技术实现步骤摘要】
直接RNA测序的多组学分析方法、系统、设备及存储介质


[0001]本申请涉及生物信息处理
,具体而言,涉及一种直接RNA测序的多组学分析方法、系统、设备及存储介质。

技术介绍

[0002]目前,第三代测序技术中,纳米孔测序技术能够直接对RNA分子测序,又称为直接RNA测序技术;由于直接RNA测序技术测序得到的测序结果包含RNA分子多个维度信息,但是目前没有一种能够挖掘该直接RNA测序结果的方法,因此实现对直接RNA测序结果的多维度信息获取具有重要的现实意义。
[0003]现有技术中,对于第三代测序技术的RNA分子数据分析过程中,主要存在以下几种技术:一是结合二代测序技术进行全长转录本定量分析,该分析一般采用第二代测序技术所得RNA序列结合三代测序技术测得RNA序列进行定量分析,缺点是在定量分析中还需要对样本进行一次第二代测序,对样品量要求多,价格昂贵;二是全长转录本鉴定分析,该分析采用定性方式只鉴定第三代测序结果中RNA分子的全长结构序列,缺点是不能够有效利用RNA直接测序的其他维度数据;三是RNA分子的甲基化修饰鉴定,该分析采用建立模型对RNA分子甲基化位点进行预测,缺点是预测准确性有待提高,且不能判定甲基化位点位于原始RNA分子的那个位子。国内外对直接RNA测序技术的分析方案较少,都只分析了RNA分子的一到两个维度信息,且第三代测序技术价格昂贵,并没有充分利用直接RNA测序结果。

技术实现思路

[0004]本申请实施例的目的在于提供一种直接RNA测序的多组学分析方法、系统、设备及存储介质,可以实现提高测序精度的技术效果。
[0005]第一方面,本申请实施例提供了一种直接RNA测序的多组学分析方法,包括:
[0006]获取直接RNA测序的测序数据;
[0007]将所述测序数据与参考基因组比对,获得测序比对数据;
[0008]根据所述测序比对数据进行全长转录本鉴定,获得全长转录本序列数据;
[0009]基于所述全长转录本序列数据对所述测序数据进行转录本定量处理,获得转录本定量数据;
[0010]根据甲基化修饰预测模型处理所述测序数据,获得甲基化修饰数据;
[0011]根据新生mRNA预测模型处理所述全长转录本序列数据,获得新生mRNA数据;
[0012]根据所述全长转录本序列数据、所述转录本定量数据、所述甲基化修饰数据和所述新生mRNA数据进行关联性分析,获得直接RNA测序多维度信息。
[0013]在上述实现过程中,该直接RNA测序的多组学分析方法通过对直接RNA测序的测序数据及测序比对数据进行处理,依次获得全长转录本序列数据、转录本定量数据、甲基化修饰数据和新生mRNA数据,能够对直接RNA测序的RNA序列进行多维度数据分析,一个测序数据分析4个维度信息,从而实现多组学的数据整合;因此,该直接RNA测序的多组学分析方法
通过一次实验即可同时获得多套数据方案,减少了多次生物学实验带来的实验误差和批次效应,实现提高测序精度的技术效果。
[0014]进一步地,所述根据所述测序比对数据进行全长转录本鉴定,获得全长转录本序列数据的步骤,包括:
[0015]对所述测序比对数据进行矫正,获得校正后的测序比对数据;
[0016]对所述校正后的测序比对数据进行聚类处理,获得所述全长转录本序列数据。
[0017]进一步地,所述基于所述全长转录本序列数据对所述测序数据进行转录本定量处理,获得转录本定量数据的步骤,包括:
[0018]将所述全长转录本序列数据作为定量转录本的参考序列,基于所述参考序列将所述测序数据进行转录本定量,获得所述转录本定量数据。
[0019]进一步地,所述根据甲基化修饰预测模型处理所述测序数据,获得甲基化修饰数据的步骤,包括:
[0020]根据所述测序数据,获取原始读长;
[0021]对所述原始读长的电信号进行重新计算,获取甲基化修饰引起的电信号变化信息;
[0022]根据原始读长和所述电信号变化信息进行甲基化修饰鉴定,获得甲基化修饰位点数据;
[0023]过滤所述甲基化修饰位点数据,获得所述甲基化修饰数据。
[0024]进一步地,所述根据新生mRNA预测模型处理所述全长转录本序列数据,获得新生mRNA数据的步骤,包括:
[0025]对加入5EU孵育的RNA直接测序读长和未加入5EU孵育的RNA直接测序读长序列进行处理,得到多个特征信息;
[0026]建立随机森林模型;
[0027]根据所述随机森林模型对所述多个特征信息进行训练,获得训练模型;
[0028]将所述测序数据输入所述训练模型,获得所述新生mRNA数据。
[0029]进一步地,所述直接RNA测序多维度信息包括第一关联信息、第二关联信息和第三关联信息,所述根据所述全长转录本序列数据、所述转录本定量数据、所述甲基化修饰数据和所述新生mRNA数据进行关联性分析,获得直接RNA测序多维度信息的步骤,包括:
[0030]将所述全长转录本序列数据与所述转录本定量数据进行关联分析,获得所述第一关联信息;
[0031]将所述转录本定量数据和所述甲基化修饰数据进行关联性分析,获得所述第二关联信息;
[0032]将所述甲基化修饰数据和所述新生mRNA数据进行关联分析,获得所述第三关联信息。
[0033]第二方面,本申请实施例提供了一种直接RNA测序的多组学分析系统,包括:
[0034]获取模块,用于获取直接RNA测序的测序数据;
[0035]测序比对模块,用于将所述测序数据与参考基因组比对,获得测序比对数据;
[0036]全长转录本模块,用于根据所述测序比对数据进行全长转录本鉴定,获得全长转录本序列数据;
[0037]定量模块,用于基于所述全长转录本序列数据对所述测序数据进行转录本定量处理,获得转录本定量数据;
[0038]甲基化修饰模块,用于根据甲基化修饰预测模型处理所述测序数据,获得甲基化修饰数据;
[0039]新生mRNA模块,用于根据新生mRNA预测模型处理所述全长转录本序列数据,获得新生mRNA数据;
[0040]关联分析模块,用于根据所述全长转录本序列数据、所述转录本定量数据、所述甲基化修饰数据和所述新生mRNA数据进行关联性分析,获得直接RNA测序多维度信息。
[0041]进一步地,所述测序比对模块包括:
[0042]矫正单元,用于对所述测序比对数据进行矫正,获得校正后的测序比对数据;
[0043]测序比对单元,用于对所述校正后的测序比对数据进行聚类处理,获得所述全长转录本序列数据。
[0044]进一步地,定量模块还用于将所述全长转录本序列数据作为定量转录本的参考序列,基于所述参考序列将所述测序数据进行转录本定量,获得所述转录本定量数据。
[0045]进一步地,甲基化修饰模块包括:
[0046]原始读长单元,用于根据所述测序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种直接RNA测序的多组学分析方法,其特征在于,包括:获取直接RNA测序的测序数据;将所述测序数据与参考基因组比对,获得测序比对数据;根据所述测序比对数据进行全长转录本鉴定,获得全长转录本序列数据;基于所述全长转录本序列数据对所述测序数据进行转录本定量处理,获得转录本定量数据;根据甲基化修饰预测模型处理所述测序数据,获得甲基化修饰数据;根据新生mRNA预测模型处理所述全长转录本序列数据,获得新生mRNA数据;根据所述全长转录本序列数据、所述转录本定量数据、所述甲基化修饰数据和所述新生mRNA数据进行关联性分析,获得直接RNA测序多维度信息。2.根据权利要求1所述的直接RNA测序的多组学分析方法,其特征在于,所述根据所述测序比对数据进行全长转录本鉴定,获得全长转录本序列数据的步骤,包括:对所述测序比对数据进行矫正,获得校正后的测序比对数据;对所述校正后的测序比对数据进行聚类处理,获得所述全长转录本序列数据。3.根据权利要求2所述的直接RNA测序的多组学分析方法,其特征在于,所述基于所述全长转录本序列数据对所述测序数据进行转录本定量处理,获得转录本定量数据的步骤,包括:将所述全长转录本序列数据作为定量转录本的参考序列,基于所述参考序列将所述测序数据进行转录本定量,获得所述转录本定量数据。4.根据权利要求1所述的直接RNA测序的多组学分析方法,其特征在于,所述根据甲基化修饰预测模型处理所述测序数据,获得甲基化修饰数据的步骤,包括:根据所述测序数据,获取原始读长;对所述原始读长的电信号进行重新计算,获取甲基化修饰引起的电信号变化信息;根据原始读长和所述电信号变化信息进行甲基化修饰鉴定,获得甲基化修饰位点数据;过滤所述甲基化修饰位点数据,获得所述甲基化修饰数据。5.根据权利要求1所述的直接RNA测序的多组学分析方法,其特征在于,所述根据新生mRNA预测模型处理所述全长转录本序列数据,获得新生mRNA数据的步骤,包括:对加入5EU孵育的RNA直接测序读长和未加入5EU孵育的RNA直接测序读长序列进行处理,得到多个特征信息;建立随机森林模型;根据所述随机森林模型对所述多个特征信息进行训练,获得训练模型;将所述测序数据输入所述训练模型,获得所...

【专利技术属性】
技术研发人员:杨学敏张德营
申请(专利权)人:广州表观生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1