一种基于三代测序的转录组嵌合体的切分方法、装置制造方法及图纸

技术编号:36556551 阅读:16 留言:0更新日期:2023-02-04 17:11
本发明专利技术涉及一种基于三代测序的转录组嵌合体的切分方法、装置,其方法包括:获取待测转录组的三代测序数据;基于参考基因组,对所述三代测序数据进行比对分析,得到一条或多条reads;将每条reads中的多个片段,与位于参考基因组的多个不同位置的基因片段匹配;根据匹配到的多个不同位置的基因片段是否包含引物序列,判断每条reads是否为嵌合reads;根据每条嵌合reads的引物序列在reads的位置,确定嵌合位点并根据其对所述转录组数据进行切分。本发明专利技术将基因片段和引物序列的位置作为嵌合reads的判据,并结合模糊匹配能更精确地确定嵌合reads,进而实现对转录组的大量嵌合reads的切分。的切分。的切分。

【技术实现步骤摘要】
一种基于三代测序的转录组嵌合体的切分方法、装置


[0001]本专利技术属于生物信息
,涉及转录组测序领域,尤其涉及一种基于三代测序的转录组嵌合体的切分方法、装置。

技术介绍

[0002]纳米孔测序是Oxford Nanopore公司研发的三代测序技术,其原理为使待测的DNA或者RNA分子通过一张带有很多纳米孔的生物膜,膜的两侧带有电压,在DNA或者RNA分子通过纳米孔的过程中,会导致纳米孔位置的电流发生变化,不同碱基(A、T、C、G)引起的电流变化会有不同,因此可以通过识别电流信号的波动趋势来识别待测分子上的碱基,从而达到对DNA或者RNA分子的序列进行测定的目的。
[0003]但是纳米孔测序的数据中,会有一定比例的嵌合体reads,其形成原因有两种:一种为在对DNA分子进行PCR扩增的过程中,由于引物与DNA模版的非特异性结合,会导致错误的将不同的DNA分子连接到一起,成为嵌合体;第二个形成嵌合体的原因是一条DNA分子在通过纳米孔后,有一定的概率其他的DNA分子会立刻通过相同的纳米孔,由于两个DNA分子过孔的间隔太短,使测序仪器将两个不同的DNA分子读取到一条测序reads上,因此形成嵌合体reads。
[0004]现有的基因组切分方法是利用duplex-tools对基因组测序中的嵌合体reads进行切分,但是,其无法切分转录组测序中的嵌合体reads,嵌合体reads由于在同一条reads上包含了两个或多个不同的DNA分子,不能直接用于数据分析,必须将其切分成若干条独立的reads,各自来自于唯一的DNA分子,相比于基因组测序,转录组测序由于待测的DNA分子更短,且需要经过PCR扩增的过程,因此转录组测序中的嵌合体reads比例更高,可高达40%,因此,如何有效的对转录组测序的嵌合体reads进行高效且准确的切分,从而提高测序的准确性,是第三代测序中急需解决的技术问题之一。

技术实现思路

[0005]为有效的对转录组测序的嵌合体reads进行高效且准确的切分,在本专利技术的第一方面提供了一种基于三代测序的转录组嵌合体的切分方法,包括:获取待测转录组的三代测序数据;基于参考基因组,对所述三代测序数据进行比对分析,得到一条或多条reads;判断每条reads中的多个片段,是否与位于参考基因组的多个不同位置的基因片段匹配;根据匹配到的多个不同位置的基因片段对应的reads片段内,是否包含引物序列,判断每条reads是否为嵌合reads;根据每条嵌合reads的引物序列在reads的位置,确定嵌合位点并根据其对所述转录组数据进行切分。
[0006]在本专利技术的一些实施例中,所述判断每条reads中的多个片段,是否与位于参考基因组的多个不同位置的基因片段匹配包括:将每条reads与参考基因组进行比对,判断所述reads是否与参考基因组中位于不同位置的多个基因的片段匹配。
[0007]在本专利技术的一些实施例中,所述根据匹配到的多个不同位置的基因片段对应的
reads片段内,是否包含引物序列,判断每条reads是否为嵌合reads包括:基于edlib局部比对算法,将参考引物序列与每条reads做双序列比对:若至少匹配到一条引物序列,则判断所述reads为嵌合reads。
[0008]进一步的,所述基于edlib局部比对算法,将参考引物序列与每条reads做双序列比对包括:通过edlib局部比对算法的HW模式在允许错误匹配的情况下,在reads中找到与引物序列最相似的reads片段。
[0009]优选的,所述允许错误匹配包括模糊匹配。
[0010]在上述的实施例中,所述根据每条嵌合reads的引物序列在reads的位置,确定嵌合位点并根据其对所述转录组数据进行切分包括:根据每条嵌合reads匹配到的参考基因组的多个不同位置的基因片段,确定一个或多个所述嵌合reads的引物序列的位置;基于每个所述嵌合reads的引物序列的位置确定嵌合位点,根据所述嵌合位点将待测转录组中的嵌合reads切分为多个非嵌合reads。
[0011]本专利技术的第二方面,提供了一种基于三代测序的转录组嵌合体的切分装置,包括:获取模块,用于获取待测转录组的三代测序数据;基于参考基因组,对所述三代测序数据进行比对分析,得到一条或多条reads;第一判断模块,用于判断每条reads中的多个片段,是否与位于参考基因组的多个不同位置的基因片段匹配;第二判断模块,用于根据匹配到的多个不同位置的基因片段对应的reads片段内,是否包含引物序列,判断每条reads是否为嵌合reads;切分模块,用于根据每条嵌合reads的引物序列在reads的位置,确定嵌合位点并根据其对所述转录组数据进行切分。
[0012]本专利技术的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术在第一方面提供的基于三代测序的转录组嵌合体的切分方法。
[0013]本专利技术的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本专利技术在第一方面提供的基于三代测序的转录组嵌合体的切分方法。
[0014]本专利技术的有益效果是:
[0015]本专利技术通过双序列比对中的局部比对算法在reads序列中搜索引物序列,采用模糊匹配搜索,而不是精确匹配,因此对三代测序的序列适配性更好;由于增加了与参考基因组比对的步骤,通过判断reads不同区段是否比对到参考转录组基因数据的不同位置,来确定reads是否为嵌合reads,提高了准确性。引物序列不再固定,可以适用于不同的引物序列;同时考虑reads在参考基因组上的比对位置,使嵌合reads的鉴定和切分更加准确。
附图说明
[0016]图1为本专利技术的一些实施例中的基于三代测序的转录组嵌合体的切分方法的基本流程示意图;
[0017]图2为本专利技术的一些实施例中的基于三代测序的转录组嵌合体的切分方法的具体流程示意图;
[0018]图3为本专利技术的一些实施例中的Edlib局部比对方法中的不同模式示的比对示意
图;
[0019]图4为本专利技术的一些实施例中的基于三代测序的转录组嵌合体的切分装置的结构示意图;
[0020]图5为本专利技术的一些实施例中的电子设备的结构示意图。
具体实施方式
[0021]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0022]为了描述的方便,对本公开中出现的相关术语进行通用性解释:
[0023]二代测序:第二代基因测序技术,也叫下一代测序(NGS,Next Generation Sequencing),主要使用Illumina平台的测序仪器,一次对几十万到几百万条DNA分子进行序列测定,得到的片段读长较短,通常为几十到几百碱基对(bp,base pair)。
[0024]三代测序:第三代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三代测序的转录组嵌合体的切分方法,其特征在于,包括:获取待测转录组的三代测序数据;基于参考基因组,对所述三代测序数据进行比对分析,得到一条或多条reads;判断每条reads中的多个片段,是否与位于参考基因组的多个不同位置的基因片段匹配;根据匹配到的多个不同位置的基因片段对应的reads片段内,是否包含引物序列,判断每条reads是否为嵌合reads;根据每条嵌合reads的引物序列在reads的位置,确定嵌合位点并根据其对所述转录组数据进行切分。2.根据权利要求1所述的基于三代测序的转录组嵌合体的切分方法,其特征在于,所述判断每条reads中的多个片段,是否与位于参考基因组的多个不同位置的基因片段匹配包括:将每条reads与参考基因组进行比对,判断所述reads是否与参考基因组中位于不同位置的多个基因的片段匹配。3.根据权利要求1所述的基于三代测序的转录组嵌合体的切分方法,其特征在于,所述根据匹配到的多个不同位置的基因片段对应的reads片段内,是否包含引物序列,判断每条reads是否为嵌合reads包括:基于edlib局部比对算法,将参考引物序列与每条reads做双序列比对:若至少匹配到一条引物序列,则判断所述reads为嵌合reads。4.根据权利要求3所述的基于三代测序的转录组嵌合体的切分方法,其特征在于,所述基于edlib局部比对算法,将参考引物序列与每条reads做双序列比对包括:通过edlib局部比对算法的HW模式在允许错误匹配的情况下,在reads中找到与引物序列最相似的reads片段。5.根据权利要求4所述的基于三代测序的转录组嵌合体的切分方法,其特征在于,所述允许错误匹配包括模糊匹配。6.根据权利要求1至5任一项所述的基于三代测序的转录组嵌合体的切分方法,所述根据每条嵌合reads的引物序列在reads的位置,确定嵌合位点并根据...

【专利技术属性】
技术研发人员:胡江封力王洋汪德鹏
申请(专利权)人:武汉希望组生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1