序列比对方法、序列校正方法及其装置制造方法及图纸

技术编号:27438186 阅读:22 留言:0更新日期:2021-02-25 03:34
本发明专利技术提供了一种序列比对方法、序列校正方法及其装置,涉及生物信息技术领域。该序列比对方法主要包括区间比对、碱基比对,配合序列压缩、比对结果优化存储手段,实现了高效、高准确度的比对。该序列校正方法是基于比对结果,通过正序计分、反序回溯,进一步的对低质量区进行校正,实现高效、高准确度的比对。高准确度的比对。高准确度的比对。

【技术实现步骤摘要】
序列比对方法、序列校正方法及其装置


[0001]本专利技术涉及生物信息
,尤其是涉及一种序列比对方法、序列校正方法及装置。

技术介绍

[0002]随着高通量测序技术的飞速发展,其已成为研究物种进化、诊断疾病成因等生物学问题 的重要手段。
[0003]其中Illumina测序平台为主的第二代测序技术以其数据产出量高、成本低廉、碱基准确 率高的特点,在基因组学研究领域得到广泛的应用。基因组组装是指通过测序序列结果重建 完整的基因组序列,组装结果准确性和完整性对于后续基因注释分析、SNP和结构变异检测 等方面产生重要影响。由于存在重复序列和杂合度等复杂情况,采用二代测序技术产生的短 片段序列,难以组装得到完整的基因组序列。以人类基因组为例,现有通过二代测序组装的 人类参考基因组序列中仍存在5%~10%未明确的复杂区域。
[0004]第三代测序技术平台,以Pacific Biosciences和Oxford Nanopore Technologies为代表,具 有长读长的显著特点,能够产生大于10k的长片段序列,并且对GC含量较高的区域测序结 果无偏好性,为基因组研究领域带来了重大的变革。三代测序技术在提升序列长度的同时, 与二代测序相比(错误率0.1%)却带来了碱基序列错误率较高的缺陷(错误率15%~20%), 测序序列中的错误信息对后续进行数据分析造成了重大的影响。对于三代测序数据,通常采 用Overlap-Layout-Consensus(OLC)算法的策略进行基因组组装,但由于序列错误率高的缺 陷,极大增加了组装的复杂性和计算序列间相互关系的资源消耗。现有针对三代测序数据的 基因组组装软件,或采用先校正测序数据后组装基因组的方法,或采用先组装基因组后对组 装结果进行校正的方法。上述两种方法均涉及序列间的相互比对运算,并基于比对结果校正 测序数据中错误信息。现有比对方法中存在大量的无效比对,该无效比对将连锁影响校正的 准确性,同时比对结果需要占据巨大的存储空间,因此比对及校正步骤在基因组组装中占据 了最长的时间消耗,并对于内存需求量巨大。以组装哺乳动物基因组三代测序数据为例,现 有软件需要消耗数万CPU核时,并且不能处理超大型基因组的组装,严重阻碍了三代测序技 术的广泛应用。因此亟待开发针对性处理长读长测序数据的比对及校正方法,有效较少现有 方法的计算资源消耗,提升运行的效率,充分解锁长读长测序技术在基因组学研究领域的潜 力。所述长读长测序包括,但不限于,单分子实时测序(SMRT)技术和纳米孔测序技术。

技术实现思路

[0005]本专利技术的目的在于提供一种序列比对方法、序列校正方法及装置,可以较好的减少无效 比对数量,并提高序列校正的准确性。
[0006]本专利技术提供的一种序列对比方法,所述方法包括:S101、获取测序序列,根据第一预设 数据长度在所述测序序列中筛选第一序列,根据第二预设长度在所述测序序列中筛
选第二序 列;S102、将所述第一序列与第二序列进行比对,得到第一参考序列、第一比对序列;S103、 计算所述第一比对序列对所述第一参考序列的覆盖度,基于所述覆盖度筛选所述第一参考序 列、第一比对序列,获得第二参考序列、第二比对序列;S104、计算所述第二参考序列与第 二比对序列之间的比对路径,基于编辑距离筛选所述第二参考序列、第二比对序列,获得第 三参考序列、第三比对序列。
[0007]进一步,所述方法包括基于二进制数码对序列进行转换和存储,所述序列包括所述测序 序列、所述第一序列、所述第二序列、所述第一参考序列、所述第一比对序列、所述第二参 考序列、所述第二比对序列、所述第三参考序列和所述第三比对序列中的一种或多种;
[0008]优选的,所述基于二进制数码对序列进行转换和存储的步骤,包括:按照预设分组将所 述序列划分为多个碱基组合;其中,所述预设分组包括将相邻的四个碱基确定为一个碱基组 合;根据碱基与二进制数码之间预设的转换关系,将所述序列的碱基转换为二进制数码;对 所述序列中少于四个碱基的组合,采用指定的二进制数码对所述少于四个碱基的组合进行补 位扩充,得到满足所述预设分组的二进制序列。
[0009]进一步,所述方法包括比对结果的存储优化:纪录比对序列编号、比对方向、比对序列 比对区间起始、比对序列比对区间终止、参考序列编号、参考序列比对区间起始、参考序列 比对区间终止存储比对结果;优选的,纪录比对序列编号差值、参考序列编号差值、参考序 列比对区间长度与比对序列比对区间长度差值存储比对结果;其中所述比对序列包括第一比 对序列、第二比对序列、第三比对序列中的一种或多种,所述参考序列包括第一参考序列、 第二参考序列、第三参考序列中的一种或多种。
[0010]进一步,所述存储比对结果的方法包括:按照4字节进行存储;每字节使用7比特位纪 录数值,不足7比特位的使用特定二进制数码进行填充;剩余1比特位使用特定二进制数码 标识比对结果是否终止。
[0011]进一步,步骤S103中:所述覆盖度包括窗口覆盖度、整体覆盖度;其中,所述窗口覆盖 度为,按照预设第一碱基数将所述第一参考序列划分为多个窗口,计算所述第一比对序列对 每个窗口的覆盖度;所述整体覆盖度为,所述第一参考序列的平均覆盖度;所述基于所述筛 选所述第一参考序列、第一比对序列的方法为,将满足预设第一覆盖条件的所述第一比对序 列确定为所述第二比对序列,至所述第二比对序列对所述第一参考序列的所述整体覆盖度达 到预设第一覆盖度;其中,所述第一覆盖条件为,所述窗口覆盖度小于预设第二覆盖度,且 小于所述整体覆盖度的第一预设倍数;优选地,根据所述第一比对序列与所述第一参考序列 重叠长度由长至短的顺序,进行所述覆盖度计算及所述筛选。
[0012]进一步,步骤S103中还包括对嵌合体序列的过滤,即剔除确定为嵌合体序列的第一参考 序列及其比对信息,其中所述嵌合体序列为,所述第一参考序列中满足预设第二覆盖条件的 序列;其中,所述第二覆盖条件为,至少存在一个窗口,所述窗口的窗口覆盖度小于预设第 三覆盖度且与所述窗口毗邻的指定个数的窗口的窗口覆盖度均大于预设第四覆盖度;或者, 至少存在一个窗口,所述窗口的窗口覆盖度小于预设第五覆盖度;其中,所述第五覆盖度阈 值为与当前窗口毗邻的指定个数的窗口的窗口覆盖度平均值的第二预设倍数。
[0013]进一步,步骤S103中还包括对包含序列的过滤,即剔除确定为包含序列的第一参
考序列 及其比对信息,其中所述包含序列为,满足下述条件的所述第一参考序列:至少存在一个第 一比对序列,所述第一比对序列与所述第一参考序列比对区间的起始距所述第一参考序列的 起始的碱基数、所述第一比对序列与所述第一参考序列比对区间的终止距所述第一参考序列 的终止的碱基数均在预设第二碱基数范围内。
[0014]进一步,步骤S104具体为,在所述第二参考序列与所述第二比对序列比对区间内,执行 以下步骤:S141、使用贪婪算法计算所述第二参考序列与第二比对序列之间的比对路径,选 择最优比对路径并确定其编本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种序列对比方法,其特征在于,所述方法包括:S101、获取测序序列,根据第一预设数据长度在所述测序序列中筛选第一序列,根据第二预设长度在所述测序序列中筛选第二序列;S102、将所述第一序列与第二序列进行比对,得到第一参考序列、第一比对序列;S103、计算所述第一比对序列对所述第一参考序列的覆盖度,基于所述覆盖度筛选所述第一参考序列、第一比对序列,获得第二参考序列、第二比对序列;S104、计算所述第二参考序列与第二比对序列之间的比对路径,基于编辑距离筛选所述第二参考序列、第二比对序列,获得第三参考序列、第三比对序列。2.根据权利要求1所述的方法,其特征在于,所述方法包括:基于二进制数码对序列进行转换和存储;所述序列包括所述测序序列、所述第一序列、所述第二序列、所述第一参考序列、所述第一比对序列、所述第二参考序列、所述第二比对序列、所述第三参考序列和所述第三比对序列中的一种或多种;优选的,所述基于二进制数码对序列进行转换和存储的步骤,包括:按照预设分组将所述序列划分为多个碱基组合;其中,所述预设分组包括将相邻的四个碱基确定为一个碱基组合;根据碱基与二进制数码之间预设的转换关系,将所述序列的碱基转换为二进制数码;对所述序列中少于四个碱基的组合,采用指定的二进制数码对所述少于四个碱基的组合进行补位扩充,得到满足所述预设分组的二进制序列。3.根据权利要求1所述的方法,其特征在于,所述方法包括比对结果的存储优化:纪录比对序列编号、比对方向、比对序列比对区间起始、比对序列比对区间终止、参考序列编号、参考序列比对区间起始、参考序列比对区间终止存储比对结果;优选的,纪录比对序列编号差值、参考序列编号差值、参考序列比对区间长度与比对序列比对区间长度差值存储比对结果;其中所述比对序列包括第一比对序列、第二比对序列、第三比对序列中的一种或多种,所述参考序列包括第一参考序列、第二参考序列、第三参考序列中的一种或多种。4.根据权利要求3所述的方法,其特征在于,所述存储比对结果的方法包括:按照4字节进行存储;并且,每字节使用7比特位纪录数值,不足7比特位的使用特定二进制数码进行填充;剩余1比特位使用特定二进制数码标识比对结果是否终止。5.根据权利要求1所述的方法,其特征在于,步骤S103中,所述覆盖度包括窗口覆盖度、整体覆盖度;其中,所述窗口覆盖度为,按照预设第一碱基数将所述第一参考序列划分为多个窗口,计算所述第一比对序列对每个窗口的覆盖度;所述整体覆盖度为,所述第一参考序列的平均覆盖度;所述筛选的方法为,将满足预设第一覆盖条件的所述第一比对序列确定为所述第二比对序列,至所述第二比对序列对所述第一参考序列的所述整体覆盖度达到预设第一覆盖度;其中,所述第一覆盖条件为,所述窗口覆盖度小于预设第二覆盖度,且小于所述整体覆盖度的第一预设倍数;优选地,按照所述第一比对序列与所述第一参考序列重叠长度由长至短的顺序,进行所述覆盖度计算及所述筛选。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括对嵌合体序列的过滤,其中所述嵌合体序列为,所述第一参考序列中满足预设第二覆盖条件的序列;其中,所述第二覆盖条件为,至少存在一个窗口,所述窗口的窗口覆盖度小于预设第三覆盖度且与所述窗口毗邻的指定个数的窗口的窗口覆盖度均大于预设第四覆盖度;或者,至少存在一个窗口,所述窗口的窗口覆盖度小于预设第五覆盖度;其中,所述第五覆盖度阈值为与当前窗口毗邻的指定个数的窗口的窗口覆盖度平均值的第二预设倍数。7.根据权利要求5所述的方法,其特征在于,所述方法还包括对包含序列的过滤,其中所述包含序列为,满足下述条件的所述第一参考序列:至少存在一个第一比对序列,所述第一比对序列与所述第一参考序列比对区间的起始距所述第一参考序列的起始的碱基数、所述第一比对序列与所述第一参考序列比对区间的终止距所述第一参考序列的终止的碱基数均在预设第二碱基数范围内。8.根据权利要求1所述的方法,其特征在于,步骤S104中,在所述第二参考序列与所述第二比对序列比对区间内,执行以下步骤:S141、使用贪婪算法计算所述第二参考序列与第二比对序列之间的比对路径,选择最优比对路径并确定其编辑距离;S142、从所述第二比对序列中,选择不大于预设编辑距离条件的第二比对序列为第三比对序列,其对应的参考序列为第三参考序列;其中,所述预设编辑距离条件为,所述比对区间内第一参考序列与第二比对序列长度之和的第三预设倍数;S143、循环步骤S141至S142,直至第三比对序列对第三参考序列的覆盖度达到预设第六覆盖度;优选的,步骤S141中,贪婪算法计算时约束线范围为,在所述比对路径的编辑距离的约束下,最大延伸距离减去指定距离值时最小约束线与最大约束线之间;优选的,步骤S143中,计算所述覆盖度的区间为,根据所述最优比对路径,回溯确定第三比对序列与第三参考序列的比对区间,查找所述比对区间内的第一个预设第三碱基数完全匹配的起始位置、最后一个预设第三碱基数完全匹配的终止位置,将所述起始位置、所述终止位置确定为所述区间的起始位置、终止位置。9.一种序列校正方法,其特征在于,所述方法包括:S201、对多个测序片段之间进行比对,得到参考序列、比对序列;S202、以k-mer为单位,对所述参考序列进行划分,对所述比对序列进行对应的划分,得到多个k-mer片段;S203、从正序,以k-mer片段为单位,计算每个位置上所有碱基的得分;S2...

【专利技术属性】
技术研发人员:胡江韩悦汪德鹏
申请(专利权)人:武汉未来组生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1