The invention discloses a method and a device for isoforms identification of biological sequence clustering and full-length transcriptome sequencing data, including biological sequence clustering method: biological sequences clustered; the biological sequences to reference sequences, get the results according to the standards set by clustering documents; the results file clustering. The biological sequence clustering method of the invention adds reference sequence information to sequence similarity calculation, which can effectively reduce computational complexity, and has fast and accurate characteristics.
【技术实现步骤摘要】
生物序列聚类和全长转录组中转录本亚型识别方法和装置
本专利技术涉及生物序列分析
,尤其涉及一种基于参考序列的生物序列聚类方法和装置以及全长转录组测序数据中转录本亚型识别方法和装置。
技术介绍
在生物序列的相似性分析中,相似度的计算可以分为基于序列比对的序列相似度计算方法和基于序列特征分析比较的相似度计算方法,基于序列比对的序列相似度计算方法中采用最多的是序列之间两两比对的策略,基于序列特征分析比较的相似度计算方法主要包括序列的字统计分析、序列之间的编辑距离计算、序列的理化性质统计分析等。序列相似性分析应用于研究生物的系统进化、同源序列的寻找、大规模生物序列测序的聚类等。例如,在转录组测序的数据分析中,转录本重构是一大难题,相比于二代测序短读取(reads,测序仪输出的核酸序列)拥有大数据量但是很难重构得到全长的信息量,PacBio(PacificBiosciences公司的简称)测序凭借其超长的读取优势,其Iso-Seq(PacBio的RNA测序商标名)RNA测序几乎可以直测全长转录本,从而能够得到转录本完整的信息量。但是对于PacBio测序,如何从纷繁的测 ...
【技术保护点】
一种基于参考序列的生物序列聚类方法,其特征在于,所述方法包括:提供待聚类的生物序列;将所述生物序列比对到参考序列,得到结果文件;按照设定的聚类标准对所述结果文件进行聚类。
【技术特征摘要】
1.一种基于参考序列的生物序列聚类方法,其特征在于,所述方法包括:提供待聚类的生物序列;将所述生物序列比对到参考序列,得到结果文件;按照设定的聚类标准对所述结果文件进行聚类。2.根据权利要求1所述的生物序列聚类方法,其特征在于,所述方法还包括:将所述结果文件分成子文件;相应地,按照设定的聚类标准对所述子文件进行聚类。3.根据权利要求1或2所述的生物序列聚类方法,其特征在于,所述生物序列选自DNA序列、RNA序列或氨基酸序列,所述参考序列选自参考DNA序列、参考RNA序列或参考氨基酸序列。4.一种基于参考序列的生物序列聚类装置,其特征在于,所述装置包括:输入单元,用于提供待聚类的生物序列;比对单元,用于将所述生物序列比对到参考序列,得到结果文件;聚类单元,用于按照设定的聚类标准对所述结果文件进行聚类;输出单元,用于输出聚类结果。5.一种基于参考序列的全长转录组测序数据中转录本亚型识别的方法,其特征在于,所述方法包括:提供全长转录本序列;将所述全长转录本序列比对到参考序列,得到结果文件;对所述结果文件的序列进行比较外显子结构以及比较每个外显子的5’端和3’端坐标,并且按照设定的标准定义转录本亚型击中;根据所述转录本亚型击中对所述结果文件的序列标记分组;将各组内的所有序列构建成一条转录本亚型的一致性序列。6.根据权利要求5所述的转录本亚型识别的方法,其特征在于,所述方法还包括:将所述结果文件按照设定的标准分成子文件;相应地,对所述子文件的序列进行比较外显子结构以及比...
【专利技术属性】
技术研发人员:石卓兴,袁永娴,杨林峰,
申请(专利权)人:深圳华大基因股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。