当前位置: 首页 > 专利查询>海南大学专利>正文

一种单细胞测序的数据分类方法技术

技术编号:20922039 阅读:48 留言:0更新日期:2019-04-20 10:52
本发明专利技术属于生物信息学分析技术领域,公开了一种单细胞测序的数据分类方法;包括有第一条序列(Read1.fastq)的信息识别模块;第二条序列(Read2.fastq)的信息识别模块;条形码列表信息加载(barcodeList)模块;引物信息加载(primerList)模块。本发明专利技术主要对单细胞测序技术SPLiT‑seq的数据进行分类,在分类过程中充分考虑条码barcode的信息,这是第一个对单细胞SPLiT‑seq技术的数据分类的方法。在barcode和特征序列中加入了容错比对机制,并使用碱基转换函数,将字符转换成数字进行运算,使单细胞测序数据的分类更加快速和高效。

A Data Classification Method for Single Cell Sequencing

The invention belongs to the field of bioinformatics analysis technology, and discloses a data classification method for single-cell sequencing, including an information recognition module with the first sequence (Read1.fastq); an information recognition module with the second sequence (Read2.fastq); a barcode list information loading module; and a primer list module. The present invention mainly classifies the data of single cell sequencing technology SPLiT_seq, and fully considers the barcode information in the classification process. This is the first method for data classification of single cell SPLiT_seq technology. Fault-tolerant alignment mechanism is added to barcode and feature sequence, and base conversion function is used to convert characters into numbers for operation, which makes the classification of single-cell sequencing data faster and more efficient.

【技术实现步骤摘要】
一种单细胞测序的数据分类方法
本专利技术属于生物信息学
,尤其涉及一种单细胞测序的数据分类方法。
技术介绍
高通量测序技术(Nextgenerationsequencing,NGS)是生命科学研究领域重要技术之一,近年来基于高通量测序技术的生命科学研究普遍应用于个体、组织等群体水平,如人的全基因组测序(Wholegenomesequencing,WGS)、转录组测序(RNAsequencing,RNA-seq)等。由于多细胞的组织中广泛存在细胞异质性,即相同表型细胞的基因组、转录组等遗传信息可能存在显著性差异,因此有必要从单细胞水平对生物体进行解析和研究。虽然已有一些早期单细胞的研究方法,如免疫荧光,单细胞PCR和单细胞实时荧光定量PCR法,但这些方法普遍通量低,无法从单个细胞的水平上精确地解析细胞的分化、再生、衰老以及病变等复杂生物学现象。结合高通量测序技术的特点,单细胞测序技术便应运而生。单细胞测序(Singlecellsequencing,SCS)是在单细胞水平对全基因组、转录组进行扩增和测序的一项新技术。现在称为年度6大领域最值得关注的技术,并且将其评为最重要的方法学研究成果。相对于常规的测序技术,单细胞测序技术具有明显优势,尤其对于组织水平研究中易丢失的低丰度的基因信息。单细胞测序技术能够揭示单个细胞的基因结构和基因表达状态,反映细胞间的异质性,在肿瘤、发育生物学、微生物学、神经科学等领域发挥重要作用。随着单细胞测序研究的深入,开发了多个用于单细胞测序的技术,比如DroNC-seq,CROP-seq,LIANTI,和scCOOL-seq等。DroNC-seq技术将低通量能有效观察单细胞类型和动态过程的sNuc-seq技术与利用微滴包括标记单细胞DNA的Drop-seq技术相结合,表现了明显的高效灵敏的细胞分类能力。CROP-seq又称为CRISPR液滴测序技术,结合CRISPR-Cas9在细胞筛选中的优势与单细胞液滴的方法,具有通量高、成本低的单细胞测序特点。LIANTI主要优势体现在单细胞的全基因组扩增方法上,通过转座子插入对DNA进行大量线性扩增,从而达到单细胞的DNA测序深度和分辨率的显著提高。scCOOL-seq是一种单细胞多重测序技术,可以完成对单细胞染色质状态、核小体定位、甲基化、拷贝数变异和染色体倍性等5个层面的特征解析。尽管上述单细胞测序技术各有优势和特点,但都需要微流体或者微孔做细胞分选,从而造成高昂的单细胞测序费用。现有技术中关于SPLiT-seq技术通过DNA的条码(barcode)的4轮扩增标记,可以获得潜在的21233664个条码组合,足以特异性的标记所有细胞,避免了单个细胞的分离。SPLiT-seq大大降低了单细胞测序的成本和实验设备要求,使单细胞测序技术的广泛推广和使用成为现实。由于SPLiT-seq不经过细胞分选进行测序,所有的细胞信息都存在了测序后的下机数据中。通过条码序列信息对所有的数据进行分类,以便确定相应的细胞和后续分析;针对SPLiT-seq单细胞测序的数据分类,由于该技术是2018年才提出的新技术,相应的数据分类的方法还未见报道。综上所述,现有技术存在的问题是:针对SPLiT-seq单细胞测序的数据分类,目前还没有相应的方法。解决上述技术问题的难度和意义:本专利技术的提出能有效的解决基于SPLiT-seq单细胞测序的数据分类和提取问题,为人类疾病尤其是肿瘤医学的基础科研工作提供重要的方法支持和帮助。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种单细胞测序的数据分类方法。本专利技术是这样实现的,一种单细胞测序的数据分类系统,所述单细胞测序的数据分类系统包括:第一条序列阅读模块和第二条序列阅读模块,作为实际测序数据的输入;条形码列表信息模块,用于存放3轮条码序列信息,生成相应的表来加速查询过程;引物信息加载模块,用于存放附件的引文序列信息,生成相应的表来加速查询过程。进一步,所述第二条序列阅读模块2包括:UMI单元,3轮标签单元和cDNA单元;UMI单元,作为标识,对不同的细胞来源进行分类处理;3轮标签单元,标签作为标识,对不同的细胞来源进行分类处理;cDNA单元,最终要提取的序列信息。本专利技术的另一目的在于提供一种运行所述单细胞测序的数据分类系统的单细胞测序的数据分类方法,所述单细胞测序的数据分类方法包括:步骤一,对实际测序数据分类提取;步骤二,存放3轮条码序列信息;生成相应的表来加速查询过程;步骤三,存放附件的引文序列信息;生成相应的表来加速查询过程。进一步,所述步骤一具体包括:(1)采用K-mer方法,提供容错机制,查找到特征序列的位置;(2)从序列中提取出3轮的barcode:根据序列中特征序列的位置,向前偏移8位,提取出相对应的barcode条码;(3)提取出3轮barcode后,通过BarcodeTable将barcode转换为3组数字,共同作为唯一标识,确定一个细胞;(4)将UMI追加到标识之后。进一步,所述步骤一具体包括:(1)对primerList进行建表,产生primertable;(2)将primerList中的整条长序列,每次对其取长度为k的片段,从起始处开始取片段,每次向后偏移1位,记录子序列在整体中出现的位置;(3)对每个fragment进行一次转换,将其视为一个4进制数,得到碱基到数字的具体映射关系;(4)将映射关系通过十进制转换,获得的数值作为数组的下标,得到最终的primertable结构。本专利技术的另一目的在于提供一种实现所述单细胞测序的数据分类方法的计算机程序。本专利技术的另一目的在于提供一种实现所述单细胞测序的数据分类方法的信息数据处理终端。本专利技术的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述单细胞测序的数据分类方法。综上所述,本专利技术的优点及积极效果为:本专利技术对单细胞测序技术SPLiT-seq的数据进行分类,在分类过程中充分考虑条码barcode的信息,是第一个对单细胞SPLiT-seq技术的数据分类的方法。本专利技术在barcode和特征序列中融入了容错比对机制,并使用碱基字母ATCG的转换函数,使单细胞测序数据的分类更加快速和高效。附图说明图1是本专利技术实施例提供的单细胞测序的数据分类系统结构示意图;图中:1、第一条序列阅读模块;2、第二条序列阅读模块第;3、条形码列表信息模块;4、引物信息加载模块。图2是本专利技术实施例提供的单细胞测序的数据分类方法流程图。图3是本专利技术实施例提供的Read2数据内容示意图。图4是本专利技术实施例提供的primertable的生成示意图。图5是本专利技术实施例提供的primertable的结构示意图。图6是本专利技术实施例提供的根据BarcodeList的三轮信息生成3张表示意图。图7是本专利技术实施例提供的根据PrimerList生成PrimerTable示意图。图8是本专利技术实施例提供的最终primertable的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。针对SPLiT-seq单细胞测序的数据分类,目前还本文档来自技高网
...

【技术保护点】
1.一种单细胞测序数据的分类系统,其特征在于,所述单细胞测序的数据分类系统包括:第一条序列阅读模块和第二条序列阅读模块,作为实际测序数据的输入;条形码列表信息模块,用于存放3轮条码序列信息,生成相应的表来加速查询过程;引物信息加载模块,用于存放附件的引文序列信息,生成相应的表来加速查询过程。

【技术特征摘要】
1.一种单细胞测序数据的分类系统,其特征在于,所述单细胞测序的数据分类系统包括:第一条序列阅读模块和第二条序列阅读模块,作为实际测序数据的输入;条形码列表信息模块,用于存放3轮条码序列信息,生成相应的表来加速查询过程;引物信息加载模块,用于存放附件的引文序列信息,生成相应的表来加速查询过程。2.如权利要求1所述的单细胞测序数据的分类系统,其特征在于,所述第二条序列阅读模块2包括:UMI单元,3轮标签单元和cDNA单元;UMI单元,作为标识,对不同的细胞来源进行分类处理;3轮标签单元,标签作为标识,对不同的细胞来源进行分类处理;cDNA单元,最终要提取的序列信息。3.一种运行权利要求1所述单单细胞测序数据的分类系统的单细胞测序的数据分类方法,其特征在于,所述单细胞测序的数据分类方法包括:步骤一,将实际测序数据输入;步骤二,存放3轮条码序列信息;生成相应的表来加速查询过程;步骤三,存放附件的引文序列信息;生成相应的表来加速查询过程。4.如权利要求3所述的单细胞测序的数据分类方法,其特征在于,所述步骤一具体包括:(1)采用K-mer方法,提供容错机制,查找到特征序列的位置;(2)从序列中提取出3轮...

【专利技术属性】
技术研发人员:谢尚潜刘宇枭林加论邢剑锋
申请(专利权)人:海南大学
类型:发明
国别省市:海南,46

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1