【技术实现步骤摘要】
测序序列处理方法及装置、存储介质、电子设备
本专利技术实施例涉及生物信息处理
,具体而言,涉及一种测序序列处理方法、测序序列处理装置、计算机可读存储介质以及电子设备。
技术介绍
随着人们对人基因组认识的深入,全基因组重测序在医学、鉴定等领域发挥着越来越重要的作用。由于目前全基因组重测序均采用将完整DNA序列通过化学和物理的方式切为若干个DNA片段,然后通过机器将其转换为以字符串为载体的测序序列。故若无法将测序序列对比到整个参考基因组上则后续的分析根本无法进行,故测序序列对比是整个全基因组测序数据分析必须的步骤。在现有的对测序序列对比的方法中,大多数是通过对测序数据序列与参考基因组序列的完全匹配子串进行过滤,然后对过滤后的结果分别进行模糊匹配打分与回溯,再将分值高于门限的模糊处理结果为最终输出的对齐结果。但是,上述方案存在大量的无效的模糊匹配打分和回溯操作,而模糊匹配打分和回溯操作的计算复杂度是整个计算过程中计算复杂度最大的部分,因此大大降低了整体序列对比操作效率。因此,需要提供一种新的测序序列处理方法及 ...
【技术保护点】
1.一种测序序列处理方法,其特征在于,包括:/n获取在对待测序序列与参考测序序列进行映射时得到的多个完全匹配子串;/n根据各所述完全匹配子串与所述参考测序序列之间的欧氏距离对各所述完全匹配子串进行分组得到多个子串组;/n根据预设排序规则对各所述子串组进行排序,并对排序后的各所述子串组中的各所述完全匹配子串进行处理得到处理结果;/n在确认所述处理结果满足预设条件时,将该处理结果作为所述待测序序列的对齐结果。/n
【技术特征摘要】
1.一种测序序列处理方法,其特征在于,包括:
获取在对待测序序列与参考测序序列进行映射时得到的多个完全匹配子串;
根据各所述完全匹配子串与所述参考测序序列之间的欧氏距离对各所述完全匹配子串进行分组得到多个子串组;
根据预设排序规则对各所述子串组进行排序,并对排序后的各所述子串组中的各所述完全匹配子串进行处理得到处理结果;
在确认所述处理结果满足预设条件时,将该处理结果作为所述待测序序列的对齐结果。
2.根据权利要求1所述的测序序列处理方法,其特征在于,根据预设排序规则对各所述子串组进行排序包括:
分别计算各所述子串组中的各所述完全匹配子串的总数;
根据各所述子串组中的各所述完全匹配子串的总数的高低,对各所述子串组进行排序。
3.根据权利要求2所述的测序序列处理方法,其特征在于,在对各所述完全匹配子串进行分组多个子串组之后,所述测序序列处理方法还包括:
按照各所述完全匹配子串的当前长度对所述子串组中的各所述完全匹配子串进行排序;
在判断所述子串组中的各所述完全匹配子串的总数大于预设数值时,根据排序结果对排在所述预设数值后面的所述完全匹配子串进行删除。
4.根据权利要求1所述的测序序列处理方法,其特征在于,在获取在对待测序序列与参考测序序列进行映射时得到的多个完全匹配子串之前,所述测序序列处理方法还包括:
以并行的方式对多个待测序序列与参考测序序列进行映射处理,得到多个完全匹配子串。
5.根据权利要求1所述的测序序列处理方法,其特征在于,对排序后的各所述子串组中的各所述完全匹配子串进行处理得到处理结果包括:
对排序后的各所述子串组中的各所述完全匹配子串进行模糊匹配打分以及回溯处理得到所述处理结果。
6.根据权利要求1所述的测序序列处理方法,其特征在于,在获取在对待测序序列与参考测序序列进行映射时得到的多个完全匹配子串之后,所述测序序列处理方法还包括:
判断各所述完全匹配子串的长度是否小于预设长度;
在判断任一所述完全匹配子串的长度小于所述预设长度时,对所述完全匹配子串进行删除。
7.根据权利要求1所述的测序序列处理方法,其...
【专利技术属性】
技术研发人员:张凯,何新军,沈一鸣,
申请(专利权)人:南京医基云医疗数据研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。