【技术实现步骤摘要】
序列比对方法、序列校正方法及其装置
[0001]本专利技术涉及生物信息
,尤其是涉及一种序列比对方法、序列校正方法及装置。
技术介绍
[0002]随着高通量测序技术的飞速发展,其已成为研究物种进化、诊断疾病成因等生物学问题 的重要手段。
[0003]其中Illumina测序平台为主的第二代测序技术以其数据产出量高、成本低廉、碱基准确 率高的特点,在基因组学研究领域得到广泛的应用。基因组组装是指通过测序序列结果重建 完整的基因组序列,组装结果准确性和完整性对于后续基因注释分析、SNP和结构变异检测 等方面产生重要影响。由于存在重复序列和杂合度等复杂情况,采用二代测序技术产生的短 片段序列,难以组装得到完整的基因组序列。以人类基因组为例,现有通过二代测序组装的 人类参考基因组序列中仍存在5%~10%未明确的复杂区域。
[0004]第三代测序技术平台,以Pacific Biosciences和Oxford Nanopore Technologies为代表,具 有长读长的显著特点,能够产生大于10k的长片段序列,并且对GC含量较高的区域测序结 果无偏好性,为基因组研究领域带来了重大的变革。三代测序技术在提升序列长度的同时, 与二代测序相比(错误率0.1%)却带来了碱基序列错误率较高的缺陷(错误率15%~20%), 测序序列中的错误信息对后续进行数据分析造成了重大的影响。对于三代测序数据,通常采 用Overlap-Layout-Consensus(OLC)算法的策略进行基因组组装,但由于序列错误率高的缺 ...
【技术保护点】
【技术特征摘要】
1.一种序列对比方法,其特征在于,所述方法包括:S101、获取测序序列,根据第一预设数据长度在所述测序序列中筛选第一序列,根据第二预设长度在所述测序序列中筛选第二序列;S102、将所述第一序列与第二序列进行比对,得到第一参考序列、第一比对序列;S103、计算所述第一比对序列对所述第一参考序列的覆盖度,基于所述覆盖度筛选所述第一参考序列、第一比对序列,获得第二参考序列、第二比对序列;S104、计算所述第二参考序列与第二比对序列之间的比对路径,基于编辑距离筛选所述第二参考序列、第二比对序列,获得第三参考序列、第三比对序列。2.根据权利要求1所述的方法,其特征在于,所述方法包括:基于二进制数码对序列进行转换和存储;所述序列包括所述测序序列、所述第一序列、所述第二序列、所述第一参考序列、所述第一比对序列、所述第二参考序列、所述第二比对序列、所述第三参考序列和所述第三比对序列中的一种或多种;优选的,所述基于二进制数码对序列进行转换和存储的步骤,包括:按照预设分组将所述序列划分为多个碱基组合;其中,所述预设分组包括将相邻的四个碱基确定为一个碱基组合;根据碱基与二进制数码之间预设的转换关系,将所述序列的碱基转换为二进制数码;对所述序列中少于四个碱基的组合,采用指定的二进制数码对所述少于四个碱基的组合进行补位扩充,得到满足所述预设分组的二进制序列。3.根据权利要求1所述的方法,其特征在于,所述方法包括比对结果的存储优化:纪录比对序列编号、比对方向、比对序列比对区间起始、比对序列比对区间终止、参考序列编号、参考序列比对区间起始、参考序列比对区间终止存储比对结果;优选的,纪录比对序列编号差值、参考序列编号差值、参考序列比对区间长度与比对序列比对区间长度差值存储比对结果;其中所述比对序列包括第一比对序列、第二比对序列、第三比对序列中的一种或多种,所述参考序列包括第一参考序列、第二参考序列、第三参考序列中的一种或多种。4.根据权利要求3所述的方法,其特征在于,所述存储比对结果的方法包括:按照4字节进行存储;并且,每字节使用7比特位纪录数值,不足7比特位的使用特定二进制数码进行填充;剩余1比特位使用特定二进制数码标识比对结果是否终止。5.根据权利要求1所述的方法,其特征在于,步骤S103中,所述覆盖度包括窗口覆盖度、整体覆盖度;其中,所述窗口覆盖度为,按照预设第一碱基数将所述第一参考序列划分为多个窗口,计算所述第一比对序列对每个窗口的覆盖度;所述整体覆盖度为,所述第一参考序列的平均覆盖度;所述筛选的方法为,将满足预设第一覆盖条件的所述第一比对序列确定为所述第二比对序列,至所述第二比对序列对所述第一参考序列的所述整体覆盖度达到预设第一覆盖度;其中,所述第一覆盖条件为,所述窗口覆盖度小于预设第二覆盖度,且小于所述整体覆盖度的第一预设倍数;优选地,按照所述第一比对序列与所述第一参考序列重叠长度由长至短的顺序,进行所述覆盖度计算及所述筛选。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括对嵌合体序列的过滤,其中所述嵌合体序列为,所述第一参考序列中满足预设第二覆盖条件的序列;其中,所述第二覆盖条件为,至少存在一个窗口,所述窗口的窗口覆盖度小于预设第三覆盖度且与所述窗口毗邻的指定个数的窗口的窗口覆盖度均大于预设第四覆盖度;或者,至少存在一个窗口,所述窗口的窗口覆盖度小于预设第五覆盖度;其中,所述第五覆盖度阈值为与当前窗口毗邻的指定个数的窗口的窗口覆盖度平均值的第二预设倍数。7.根据权利要求5所述的方法,其特征在于,所述方法还包括对包含序列的过滤,其中所述包含序列为,满足下述条件的所述第一参考序列:至少存在一个第一比对序列,所述第一比对序列与所述第一参考序列比对区间的起始距所述第一参考序列的起始的碱基数、所述第一比对序列与所述第一参考序列比对区间的终止距所述第一参考序列的终止的碱基数均在预设第二碱基数范围内。8.根据权利要求1所述的方法,其特征在于,步骤S104中,在所述第二参考序列与所述第二比对序列比对区间内,执行以下步骤:S141、使用贪婪算法计算所述第二参考序列与第二比对序列之间的比对路径,选择最优比对路径并确定其编辑距离;S142、从所述第二比对序列中,选择不大于预设编辑距离条件的第二比对序列为第三比对序列,其对应的参考序列为第三参考序列;其中,所述预设编辑距离条件为,所述比对区间内第一参考序列与第二比对序列长度之和的第三预设倍数;S143、循环步骤S141至S142,直至第三比对序列对第三参考序列的覆盖度达到预设第六覆盖度;优选的,步骤S141中,贪婪算法计算时约束线范围为,在所述比对路径的编辑距离的约束下,最大延伸距离减去指定距离值时最小约束线与最大约束线之间;优选的,步骤S143中,计算所述覆盖度的区间为,根据所述最优比对路径,回溯确定第三比对序列与第三参考序列的比对区间,查找所述比对区间内的第一个预设第三碱基数完全匹配的起始位置、最后一个预设第三碱基数完全匹配的终止位置,将所述起始位置、所述终止位置确定为所述区间的起始位置、终止位置。9.一种序列校正方法,其特征在于,所述方法包括:S201、对多个测序片段之间进行比对,得到参考序列、比对序列;S202、以k-mer为单位,对所述参考序列进行划分,对所述比对序列进行对应的划分,得到多个k-mer片段;S203、从正序,以k-mer片段为单位,计算每个位置上所有碱基的得分;S2...
【专利技术属性】
技术研发人员:胡江,韩悦,汪德鹏,
申请(专利权)人:武汉未来组生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。