基于已知序列确定目标物种中对应序列的方法和系统技术方案

技术编号：24097574 阅读：53 留言：0更新日期：2020-05-09 11:10

本发明专利技术提出了基于已知序列确定目标物种中对应序列的方法和系统。方法包括：基于所述已知序列，确定所述已知序列的全部Kmer序列，以便获得种子序列Kmer序列集合；获取来自于所述目标物种的测序读段，并基于所述测序读段的至少一部分，确定所述测序读段的Kmer序列，以便获得测序读段Kmer序列集合；确定同时存在于所述测序读段Kmer序列集合和所述种子序列Kmer序列集合的Kmer序列作为延伸起始序列；基于重叠原则，利用所述测序读段Kmer序列集合，对所述延伸起始序列进行延伸处理，以便获得所述已知序列在所述目标物种中的对应序列。

A method and system for determining the corresponding sequences in target species based on known sequences

全部详细技术资料下载

【技术实现步骤摘要】
基于已知序列确定目标物种中对应序列的方法和系统
本专利技术涉及生物信息领域，具体地，本专利技术涉及基于已知序列确定目标物种中对应序列的方法和系统。
技术介绍
自“大数据”被提出以来，生物大数据如火如荼地发展。通过高通量测序，人们已经积累了庞大的数据(～30Pb/年)；实现构建多种数据库，如10KP、OneKP等(https://db.cngb.org/)。通过移动互联网，人们也从各大数据库中获得了海量的数据，如NCBI、EMBL等。这些数据的应用，将为疾病诊断、分型、医药开发、精准育种等提供新方向以及新工具。对于生物大数据，包括各种情况：所涉及到的样品多；每个样品的数据量多；每个样品的测序数据有差异：读长、质量、数据量等。面对这种现状，不少研究者表示，这些海量数据可能会淹没现有的分析渠道，并提出前所未有的“高”要求：假如在全基因组研究中，关注的仅仅只是整个基因组中的外显子部分，它能够将需要分析的数据量减少到原来的1％，但即使在这种情况下，每年产出的数据量仍可达4000万Gb。而现在的研究，往往聚集于识别个人基因组中可...

【技术保护点】
1.一种基于已知序列确定目标物种中对应序列的方法，其特征在于，包括：/n(1)基于所述已知序列，确定所述已知序列的全部Kmer序列，以便获得种子序列Kmer序列集合；/n(2)获取来自于所述目标物种的测序读段，并基于所述测序读段的至少一部分，确定所述测序读段的Kmer序列，以便获得测序读段Kmer序列集合；/n(3)确定同时存在于所述测序读段Kmer序列集合和所述种子序列Kmer序列集合的Kmer序列作为延伸起始序列；/n(4)基于重叠原则，利用所述测序读段Kmer序列集合，对所述延伸起始序列进行延伸处理，以便获得所述已知序列在所述目标物种中的对应序列。/n

【技术特征摘要】
1.一种基于已知序列确定目标物种中对应序列的方法，其特征在于，包括：
(1)基于所述已知序列，确定所述已知序列的全部Kmer序列，以便获得种子序列Kmer序列集合；
(2)获取来自于所述目标物种的测序读段，并基于所述测序读段的至少一部分，确定所述测序读段的Kmer序列，以便获得测序读段Kmer序列集合；
(3)确定同时存在于所述测序读段Kmer序列集合和所述种子序列Kmer序列集合的Kmer序列作为延伸起始序列；
(4)基于重叠原则，利用所述测序读段Kmer序列集合，对所述延伸起始序列进行延伸处理，以便获得所述已知序列在所述目标物种中的对应序列。

2.根据权利要求1所述的方法，其特征在于，所述已知序列来自于所述目标物种的亲缘物种。

3.根据权利要求1所述的方法，其特征在于，步骤(1)和步骤(2)中，分别采用相同的序列长度K值和间距D值，确定所述已知序列的全部Kmer序列和所述测序读段的Kmer序列，所述K值为27-39的整数，优选地，K值为31，所述D值为1。

4.根据权利要求1所述的方法，其特征在于，所述测序读段是来自于双向测序系统；
优选地，所述测序读段是来自BGISEQ500的双向测序数据；
任选地，在步骤(2)中，仅针对双向测序读段中的正向测序读段构建所述测序读段Kmer序列集合。

5.根据权利要求1所述的方法，其特征在于，在步骤(2)中，在基于所述测序读段的至少一部分，确定所述测序读段的Kmer序列之前，预先对所述测序读段的至少一部分进行优化处理；
优选地，所述优化处理包括删除所述测序读段起端和末端至少之一的1～10个碱基。

6.根据权利要求1所述的方法，其特征在于，在步骤(4)中，当所述延伸处理的延伸产物长度达到预定长度的1.5～2.5倍时，停止所述延伸处理，优选地，当所述延伸处理的延伸产物长度达到预定长度的2倍时，停止所述延伸处理。

7.根据权利要求1所述的方法，其特征在于，在步骤(3)中，确定多个延伸起始序列，在步骤(4)中分别针对所述多个延伸起始序列分别进行所述延伸处理，以便获得多个延伸产物，并通过下列步骤从所述多个延伸产物中选择最终序列作为所述已知序列在所述目标物种中的对应序列：
分别确定所述多个延伸产物的每一个中所包含的种子序列Kmer序列数目；
选择包含所述种子序列Kmer序列数目最高的所述延伸产物作为所述对应序列。

8.根据权利要求4所述的方法，其特征在于，进一步包括：
(5)确定步骤(4)中进行所述延伸处理所采用的测序读段Kmer序列所对应的候选测序读段；
(6)基于所述候选测序读段对所述对应序列进行修正处理。

9.根据权利要求8所述的方法，其特征在于，所述修正处理包括：
基于所述候选测序读段与所述对应序列的比对，针对所述对应序列的至少一个位点，确定所述至少一个位点的优势碱基，并利用所述优势碱基对所述对应序列进行修正；
优选地，所述修正处理包括：
确定双向测序读段中成对测序读段在所述对应序列上的间距，如果所述间距与预定的插入片段长度差异超过10％，则判定所述对应序列为错误序列；
任选地，对于不存在所述优势碱基且测序深度差异低于2倍，则将所述位点标记为SNP；
任选地，对于不存在所述优势碱基且测序深度差异不低于2倍，则将所述位点标记为CNV。

10.一种基于已知序列确定目标物种中对应序列的系统，其特征在于，包括：
种子序列Kmer...

【专利技术属性】
技术研发人员：方东明，陈晓丽，吴晨雨，刘欢，刘心，
申请(专利权)人：深圳华大生命科学研究院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人