【技术实现步骤摘要】
一种基于布隆过滤器的锚点筛选方法、装置和计算机设备
[0001]本申请涉及计算机
,特别是涉及一种基于布隆过滤器的长读DNA序列比对锚点筛选方法、装置和计算机设备。
技术介绍
[0002]第三代测序属于单分子检测技术,无需对模板进行扩增,避免了聚合酶链式反应带来的碱基偏好性。而且,三代测序的读长更长,能够发现二代测序无法发现的基因组重复片段和结构变异等信息,在基因组组装、结构变异检测和基因组重测序等领域都取得了新的突破。
[0003]序列比对是测序数据分析中基础而重要的环节,比对的结果是其他步骤的前提。不同于面向二代短读序列的比对算法,实现三代长读序列的快速准确比对面临读段长度更长和测序错误率更高等方面的挑战。针对这一问题,三代长读序列比对大多采用启发式方法,即“种子
‑
扩展”,其思想是先从读段和参考基因组中选取一些短片段作为种子;再通过种子的精确匹配进行锚点定位,将比对范围由整个基因组缩小至部分候选区域;最后利用动态规划方法,对候选区域进行碱基比对,细化比对结果,实现扩展验证。因此,序列比对 ...
【技术保护点】
【技术特征摘要】
1.一种基于布隆过滤器的锚点筛选方法,其特征在于,所述方法包括:获取待比对的查询序列、参考序列以及预先定位得到的多个锚点;所述查询序列为长读DNA序列;选取所述查询序列在第一锚点和第二锚点之间的片段为查询序列片段,选取所述参考序列在所述第一锚点和所述第二锚点之间的片段为参考序列片段;根据所述参考序列片段按照预设长度生成多个连续重叠的参考序列子片段,根据所述查询序列片段按照所述预设长度生成多个连续重叠的查询序列子片段;通过预设的多个哈希函数建立索引,将所述参考序列子片段映射到布隆过滤器的位向量中;根据所述索引查询所述参考序列中是否存在所述查询序列子片段,当所述查询序列子片段在所述参考序列中不存在时,判断所述查询序列子片段未通过筛选;遍历所述查询序列片段中所有查询序列子片段,并统计未通过筛选的查询序列子片段的累计值,当所述累计值大于预设阈值时,剔除所述第一锚点;遍历所有锚点,直到完成所述所有锚点的筛选。2.根据权利要求1所述的方法,其特征在于,在根据所述参考序列片段按照预设长度生成多个连续重叠的参考序列子片段,根据所述查询序列片段按照所述预设长度生成多个连续重叠的查询序列子片段之前,还包括:删除所述查询序列片段和所述参考序列片段两端相同的部分,对所述查询序列片段和所述参考序列片段进行更新。3.根据权利要求2所述的方法,其特征在于,在删除所述查询序列片段和所述参考序列片段两端相同的部分,对所述查询序列片段和所述参考序列片段进行更新之前,还包括:将所述查询序列片段和所述参考序列片段对齐;由序列两端向中间延伸,逐个碱基进行比对;得到所述查询序列片段和所述参考序列片段两端相同的部分。4.根据权利要求3所述的方法,其特征在于,所述由序列两端向中间延伸,逐个碱基进行比对,包括:若所述查询序列片段和所述参考序列片段正在比对的两个碱基相同,继续向下一个碱基延伸;若所述查询序列片段和所述参考序列片段正在比对的两个碱基不同,停止延伸。5.根据权利要求4所述的方法,其特征在于,通过预设的多个哈希函数建立索引,将所述参考序列子片段映射到布隆过滤器的位向量中,包括:根据预设的多个哈希函数得到每个参考序列子片段的多个哈希值;根据所述参考序列子片段的哈希值将布隆过滤器位向量对应位置的值置1。6.根...
【专利技术属性】
技术研发人员:张昂,廖湘科,崔英博,杨灿群,黄春,唐滔,彭林,夏泽宇,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。