一种通过SNP错配率判断亲缘关系的方法技术

技术编号:36248569 阅读:55 留言:0更新日期:2023-01-07 09:40
本发明专利技术提供了一种通过SNP错配率判断亲缘关系的方法,通过模拟样本数据,模拟测序,使用特定的生物信息学分析方法等步骤获得模拟样本的SNP错配率数据,再与实际待测样本的SNP错配率进行比较,进而判断实际待测样本间的亲缘关系。本发明专利技术的方法不但可以判断亲子关系,还可以判断全同胞关系、半同胞关系等,方法简便、准确率和可信性高、可重复性高,在亲缘关系鉴定领域具备广泛的应用前景。定领域具备广泛的应用前景。定领域具备广泛的应用前景。

【技术实现步骤摘要】
一种通过SNP错配率判断亲缘关系的方法


[0001]本专利技术涉及生物检测领域,具体为亲子鉴定检测领域,尤其涉及一种通过SNP错配率判断亲缘关系的方法。

技术介绍

[0002]亲子鉴定是基因检测技术非常成熟的应用领域,一般通过检测两个检材的遗传标记,对两个样品的检测结果进行比对,如果两个样品的遗传标记符合孟德尔遗传定律,则认为两个样品符合亲子关系。目前常用的遗传标记主要有两种,短序列串联重复(STR)和单碱基多态性位点(SNP),此外也有一些研究采用插入缺失(InDel)突变位点作为遗传标记物。一代测序技术是亲子鉴定领域应用最为成熟的检测技术,一般通过21个STR位点来进行亲子鉴定,判别。一代测序有速度快,成本低和操作简便等优势,被各类的鉴定机构广泛使用,是目前亲子鉴定方向的主要检测技术。
[0003]单碱基多态性位点(single nucleotide polymorphism,SNP)是第三代遗传学标记,这种遗传标记是由于单碱基突变使特定核苷酸位置上出现两种碱基,其中最少的一种在群体中的频率不少于1%。与第一代的RFLP及第二代的STR以长度的差异作为遗传标记的特点截然不同。SNP的分布密集,如果以1%的频率计算,在人基因组中就有300万个以上的SNP遗传标记,这可能达到了人类基因组多态位点数目的极限,因此被认为是应用前景最好的遗传标记物。
[0004]涉及SNP作为标记物用于检测的现有技术,CN106599612B(授权公告日2020.04.28)公开了一种基于高通量测序数据的指纹识别方法,选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;选取的SNP位点选自以下1820个SNP位点的组合,以这些SNP位点作为坐标点,将测序数据的特征进行数据模型化和指纹化,为高通量测序数据构建指纹识别方法,可用于鉴定高通量测序数据是否来自同一个样本,也可用于鉴定是否来自同一个数据生产机构,或者用于鉴定有争议的高通量测序数据是否是同一个数据,还可用于鉴定不同样本间的亲缘关系。CN108504750B(授权公告日2021.10.15)公开了一种确定菌群SNP位点集合的方法。该菌群SNP位点集合用于特定人群的个体鉴定,该方法包括:(1)将来自于待测样本的测序结果与参照基因组序列进行比对,所述测序结果由多个测序序列构成,以便确定能够与所述参照基因组序列比对上的所述测序序列,(2)基于步骤(1)所获得的所述测序序列,确定SNP位点分型,以及(3)基于步骤(2)所获得的SNP位点分型,确定所述SNP位点集合。
[0005]如上所述,现有技术中虽然公开了多种通过SNP进行鉴定的方法,但未有公开通过计算SNP错配率用于判断亲缘关系。虽然现有技术中已有判断亲缘关系的方法,但本领域仍存在广泛的诉求,提供一种简便、准确率和可信性高、可重复性高的判断亲缘关系的方法,特别是判断除亲子关系以外,还可以判断全同胞关系、半同胞关系等。

技术实现思路

[0006]为了解决现有技术的不足,本专利技术通过新一代的高通量测序技术,以SNP位点为遗传标记物,通过对人类基因组中上千个二态性常染色体的SNP位点进行目标区域捕获测序,每个SNP点位可以检测到低至千分之一的低频突变,并获得待测样本的分型结果,通过统计两个待测样本之间的错配位点并计算错配率,可以对亲缘关系进行判断。该方法可以用于判断常见的亲缘关系,包含:亲子关系、全同胞关系、半同胞关系、叔侄关系、叔侄(半)关系、堂亲关系、爷孙关系、爷孙(半)关系、随机无任何亲缘关系人群。
[0007]本专利技术通过模拟新一代的高通量测序技术,通过随机生成样本数据,模拟测序等步骤,通过统计两个待测样本之间的错配位点并计算错配率,可以对亲缘关系进行判断,具体包括:
[0008](1)通过人群频率分别随机生成500

1500组模拟样本T1、样本T2,模拟亲缘关系和随机人群关系;选择样本基因组上2000

3000个突变频率在[0.05

0.95]之间二态性的常染色体SNP位点,以此作为遗传标记物,进行模拟高通量测序,并依据测序深度进行SNP分型;
[0009]进一步地,模拟样本数为1000组,SNP位点为2500个,模拟测序深度为50X

100X;
[0010]进一步地,亲缘关系包括亲子关系、全同胞关系、半同胞关系、叔侄关系、半叔侄、堂亲、爷孙、半爷孙关系中的一种或数种。
[0011](2)通过每个SNP位点模拟测序的深度分别获得待测样本T1与T2的SNP分型位点集X(T1)、X(T2),再获取分析位点集X

,X

=X(T1)∩X(T2),统计分析位点集X

的SNP位点个数,将这些位点记为有效位点;
[0012](3)统计有效位点中T1与T2之间的错配位点。规则如下:如果模拟样本T1在该位点为AA型,而模拟样本T2在该位点为AA或Aa,则该位点不排除T1和T2的亲缘关系,计作“匹配”位点;而当T2为aa型时,则该位点排除T1和T2的亲缘关系,计作“错配”位点;
[0013](4)计算错配率,公式如下:
[0014][0015]如果T1、T2为亲子关系的两个个体,可获得亲子关系下的错配率,理论值为0;
[0016]如果T1、T2为毫无关系的两个个体,可获得无任何亲缘关系之间的错配率;
[0017]如果T1、T2为全同胞(同父同母)的两个个体,可获得全同胞之间的错配率;
[0018]如果T1、T2为半同胞(同父异母、或同母异父)的两个个体,可获得半同胞之间的错配率;
[0019]如果T1、T2为叔侄关系的两个个体,可获得叔侄之间的错配率;
[0020]如果T1、T2为半叔侄关系的两个个体,可获得半叔侄之间的错配率;
[0021]如果T1、T2为堂亲关系的两个个体,可获得堂亲之间的错配率;
[0022]如果T1、T2为爷孙关系的两个个体,可获得爷孙之间的错配率;
[0023]如果T1、T2为半爷孙关系的两个个体,可获得半爷孙之间的错配率。
[0024](5)用密度图对所有模拟样本的错配率进行拟合;
[0025](6)对实际待测样本进行高通量测序和分析,以测定错配率,并与步骤(5)生成的模拟样本的错配率进行比较,得到实际待测样本间的关系。
[0026]进一步地,所述步骤(1)中人群为中国人群。
[0027]进一步地,步骤(1)模拟亲缘关系和随机人群关系具体包含如下步骤:根据不同SNP位点的人群频率获得不同位点的基因型的频率;A代表野生型位点,a代表突变型位点,如该位点人群频率A:a=X:Y,则AA型频率为X2、aa型频率为Y2、Aa型频率为2XY;根据基因型频率随机抽取获取每个位点的基因型。
[0028]进一步地,步骤(6)对实际待测样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通过SNP错配率判断亲缘关系的方法,其特征在于,包括:1)通过人群频率分别随机生成500

1500组模拟样本T1、样本T2,模拟亲缘关系和随机无亲缘人群关系;选择样本基因组上2000

3000个突变频率在[0.05

0.95]之间二态性的常染色体SNP位点,以此作为遗传标记物,进行模拟高通量测序,并依据测序深度进行SNP分型;(2)通过每个位点模拟测序的深度分别获得待测样本T1与T2的SNP分型位点集X(T1)、X(T2),再获取分析位点集X

,X

=X(T1)∩X(T2),统计分析位点集X

的SNP位点个数,将这些位点记为有效位点;(3)统计有效位点中T1与T2之间的错配位点,规则如下:如果模拟样本T1在该位点为AA型,而模拟样本T2在该位点为AA或Aa,则该位点不排除T1和T2的亲缘关系,计作匹配位点;而当T2为aa型时,则该位点排除T1和T2的亲缘关系,计作错配位点;(4)计算错配率,公式如下:(5)用密度图对所有模拟样本的错配率进行拟合;(6)对实际待测样本进行高通量测序和生物信息学分析,以测定错配率,并与步骤(5)生成的模拟样本的错配率进行比较,得到实际待测样本间的关系。2.根据权利要求1所述的方法,其中,步骤(1)所述的模拟样本数为1000组。3.根据权利要求1所述的方法,其中,步骤(1)所述的SNP位点为2500个。4.根据权利要求1所述的方法,其中,步骤(1)所述的模拟测序深度为50X

100X。5.根据权利要求1所述的方法,其中,步骤(1)所述的亲缘关系包括亲子关系、全同胞关系、半同胞关系、叔侄关系、半叔侄、堂亲、爷孙、半爷孙中的一种或数种。6.根据权利要求5所述的方法,其中,步骤(4)还包括:如果T1、T2为亲子关系的两个个体,可获得亲子关系下的错配率,理论值为0;如果T1、T2为毫无关系的两个个体,可获得无任何亲缘关系之间的错配率;如果T1、T2为全同胞同父同母的两个个体,可获得全同胞之间的错配率;如果T1、T2为半同胞同父异母、或同母异父的两个个体,可获得半同胞之间的错配率;如果T1、T2为叔侄关系的两个个体,可获得叔侄之间的错配率;如果T1、T2为半叔侄关系的两个个体,可获得半叔侄之间的错配率;如果T1、T2为堂亲关系的两个个体,可获得堂亲之间的错配率;如果T1、T2为爷孙关系的两个个体,可获得爷孙之间的错配率;如果T1、T2为半...

【专利技术属性】
技术研发人员:曾丰波熊露黄奎匀杨功达巫萍严俊
申请(专利权)人:上海蓝沙生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1