基于核心家系的串联重复变异分型检测方法及其应用技术

技术编号:39067493 阅读:12 留言:0更新日期:2023-10-12 20:00
本发明专利技术公开了一种基于核心家系的串联重复变异分型检测方法及其应用。方法包括:基于父本的测序数据集和母本的测序数据集,对子代的测序数据集进行第一分型和组装;以得到的子代单倍型基因组为参考,分别对父本和母本基因组进行单核苷酸位点变异检测,并对父本的测序数据集和母本的测序数据集分别进行第二分型,得到两套父本单倍型基因组、两套母本单倍型基因组,并明确由父本遗传到子代的单倍型基因组、以及由母本遗传到子代的单倍型基因组;对单倍型基因组分别进行串联重复变异检测。本发明专利技术提供一种基于三代长读长测序技术,高准确度、全基因组覆盖的串联重复区域变异检测方法;而且本发明专利技术方法能得到遗传过程中串联重复发生变异的单倍型信息。发生变异的单倍型信息。发生变异的单倍型信息。

【技术实现步骤摘要】
基于核心家系的串联重复变异分型检测方法及其应用


[0001][0002]本专利技术涉及生物信息
,具体地,涉及一种基于核心家系的串联重复变异分型检测方法及其应用。

技术介绍

[0003][0004]人类基因组中的变异和人类演化、疾病风险等方面都有着密切的联系。随着二代短读长高通量测序技术(NGS)的发展,研究者们开发了一系列检测基因组结构变异(Structure variations,简称SVs)的方法。在不考虑组装的情况下,基于二代测序数据检测变异的方法主要有三种策略:(1) Read Pair (RP),即根据pair reads在参考基因组上的映射距离和方向,将每个读取对象分类为normal或SV,然后识别出符合SV类别的读取次数较多的区域,并分配一个置信度得分;(2) Split Read (SR),即两条pair

end的reads中只有一条可以比对到参考基因组,另一条却不可以,产生这种分裂reads的位点往往是有结构变异的发生;(3) Read Depth (RD),即reads覆盖深度,主要用于序列丢失或者重复的检测。特别地,针对串联重复区域,研究者开发出以下几种软件用于检测其变异信息,包括:
[0005](1) TSSV(https://pypi.org/project/tssv/);
[0006](2) HipSTR(https://github.com/tfwillems/HipSTR);
[0007](3) STRSCan(http://darwin.informatics.indiana.edu/str/)等。
[0008]然而,由于二代测序读长短,很难覆盖到较长串联重复的整个区域,主要利用断点、深度信息等通过算法进行推断。例如,HipSTR使用repeat

aware隐式马尔科夫模型来比对reads,训练一个locus

specific的stutter models,同时利用flanking的SNP进行分型。此外,NGS测序在扩增时会有序列偏好性,也会影响TR检测。
[0009]三代测序将reads长度从二代的150~200 bp增加到15 kb~4 Mb,这种长读长reads可以直接覆盖绝大部分的TR区域,提供了准确获取拷贝数信息的测序数据基础,使得三代测序在串联重复变异检测方面比NGS技术有明显优势。不过目前基于三代测序数据开发的TR检测方法并不多,主要有:(1) Straglr,不基于已知的TR区域进行检测,主要检测基因组中新发的TR扩增;(2) TriColor,采取无参模式,对全基因组中扩增区域进行检测。这两种方法检测到的变异位点数较少,相较于参考基因组上约一百万个串联重复区域,这两个方法仅能得到几千到几万个区域的TR扩增位点;(3) TRGT,对已知的TR区域进行检测。该方法能对参考基因组上所有的串联重复区域进行检测。目前已有的方法主要通过聚类算法得到TR的分型信息,其准确性仍有待评估。此外,还有针对Nanopore测序数据开发的TR检测软件,如DeepRepeat,NanoSTR,但仍具有一定的局限性,并非针对PacBio CCS高精准三代测序数据开发的。
[0010]综上,串联重复区域的变异检测是NGS技术的难点,因其短读长无法跨过重复区域,而且比对时,在串联重复区域,很难确定断点位置和深度信息。长读长测序技术的发展
为串联重复区域的变异检测带来技术上的支持。然而,目前的大多数算法要么存在有效位点数较低,要么无法得到准确的单倍型变异信息的问题。

技术实现思路

[0011][0012]针对上述现有技术存在的问题,本专利技术提供一种基于核心家系的串联重复变异分型检测方法及应用。本专利技术针对三代测序数据,尤其是PacBio CCS高精准三代测序数据,开发了高准确度、全基因组覆盖的串联重复区域变异检测方法;另一方面,结合分型技术,提出一种基于核心家系的串联重复变异分析技术,能得到遗传过程中串联重复发生变异的单倍型信息。
[0013]具体来说,本专利技术涉及如下基于核心家系的串联重复变异分型检测方法和应用。
[0014]1.一种基于核心家系的串联重复变异分型检测方法,包括:
[0015]步骤1、基于父本的测序数据集和母本的测序数据集,对子代的测序数据集进行第一分型和组装,得到两套子代单倍型基因组;
[0016]步骤2、以得到的子代单倍型基因组为参考,分别对父本和母本基因组进行单核苷酸位点变异检测,并对父本的测序数据集和母本的测序数据集分别进行第二分型,得到两套父本单倍型基因组、两套母本单倍型基因组,并明确由父本遗传到子代的单倍型基因组、由母本遗传到子代的单倍型基因组;
[0017]步骤3、对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。
[0018]2、根据上述的方法,所述测序数据集包括基因组的长reads;优选地,所述长reads为三代测序方法得到的长reads;更优选地,所述三代测序方法选自Pacbio和Nanopore中的至少一种;更优选地,所述测序数据集为HiFi reads。
[0019]3、根据上述的方法,所述第一分型的方法基于trio_binning方法。
[0020]4、根据上述的方法,所述第一分型的方法包括基于trio_binning方法的find

unique

kmers分析,得到父本和母本特异的kmer序列。
[0021]5、根据上述的方法,基于classify_by_kmers方法,并根据父本和母本特意的kmer序列判断子代测序数据集为属于父本的测序数据集、属于母本的测序数据集,或者为未分型的测序数据集。
[0022]6、根据上述的方法,所述组装的方法选自hifiasm、wtdbg2、canu、nextdenovo中的至少一种。
[0023]7、根据上述的方法,所述第二分型的方法基于WhatsHap方法。
[0024]8、根据上述的方法,所述串联重复变异检测的方法为改进的Tandem Repeat Finder方法。
[0025]9、根据上述的方法,所述改进包括motif循环特点、检测区段的特征。
[0026]10、根据上述的方法,所述方法还包括:分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。
[0027]11、上述的基于核心家系的串联重复变异分型检测方法在生物学中的应用。
[0028]12、根据上述的应用,所述应用为在疾病病理研究、亲子鉴定、犯罪侦查、种群遗传
学中的应用。
附图说明
[0029][0030]图1为本专利技术实施例1提供的基于核心家系的串联重复变异分型检测方法的流程图。
[0031]图2为本专利技术实施例1提供的motif长度分布图。
[0032]图3为实施例1和对比例2的motif长度和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于核心家系的串联重复变异分型检测方法,包括:步骤1、基于父本的测序数据集和母本的测序数据集,对子代的测序数据集进行第一分型和组装,得到两套子代单倍型基因组;步骤2、以得到的子代单倍型基因组为参考,分别对父本和母本基因组进行单核苷酸位点变异检测,并对父本的测序数据集和母本的测序数据集分别进行第二分型,得到两套父本单倍型基因组、两套母本单倍型基因组,并明确由父本遗传到子代的单倍型基因组、由母本遗传到子代的单倍型基因组;步骤3、对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。2.根据权利要求1所述的方法,其特征在于,所述测序数据集包括基因组的三代测序方法得到的长reads。3.根据权利要求1所述的方法,其特征在于,所述第一分型的方法基于trio_binning方法。4.根据权利要求3所述的方法,其特征在于,所述第一分型的方法包括基于trio_binning方法的find

unique

kmers分析,得到父本和母本特异的kmer序列。5.根据权利要求4所述的方法,其特征在于,基于classi...

【专利技术属性】
技术研发人员:权慧杨伟飞任雪刘涛车天栋朱慧萍王娟李志民
申请(专利权)人:北京安诺优达医学检验实验室有限公司浙江安诺优达生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1