基于亲本基因型与子代表型的全基因组关联分析算法制造技术

技术编号:31375979 阅读:12 留言:0更新日期:2021-12-15 11:11
本发明专利技术公开了一种基于亲本基因型与子代表型的全基因组关联分析算法,包括以下步骤:获取待分析群体的亲本基因型、子代表型以及子代父母本信息,根据亲本对的基因型建立子代的组合基因型矩阵,获得每个SNP位点不同子代的可能基因型组合信息,以及对应的子代群体分组表型数据,构建子代组合基因型与对应子代表型的统计模型进行关联分析,获取表型与各SNP位点的关联P值;之后区分SNP位点的关联类型,计算是否符合加性或完全显性效应,对候选位点进行筛选;再根据全基因组SNP标记的LD衰减获得强相关标记的平均距离,用于最终标记集合的筛选。选。

【技术实现步骤摘要】
基于亲本基因型与子代表型的全基因组关联分析算法


[0001]本专利技术属于生物信息学
,具体为一种基于亲本基因型与子代表型的全基因组关 联分析算法。

技术介绍

[0002]基因序列往往包含着不同数量级的序列变异(如人类基因包含着百万种序列变异),即 单核苷酸多态性(SNP),这些变异对于疾病的形成、生长的进程、药物的反应等性状有着 直接或间接的影响。全基因组关联分析(Genome

Wide Association Studies,简称GWAS)是 指应用基因组中的SNP为分子遗传标记,对大量个体在全基因组范围的遗传标记进行检测, 获得基因型,进而与可观测的性状(表型)进行相关性分析,筛选出与性状相关的SNP, 挖掘出影响性状的基因变异。
[0003]现有的GWAS方法分析的是同一个体的基因型与表型构成的对应关系,为了获取群体 的基因型信息,需要对大量的单样本进行全基因组重测序以获取各样本的标记信息,同时采 集各样本的表型数据。通过在全基因组范围内分析大量个体的基因型-表型对应关系,确定 某些基因座与表型之间的关联关系。通常样本量越大,获得的关联基因信息准确率越高,一 般实验样本数量从数百到数万不等,需耗费非常大的实验与测序成本。
[0004]实际上,性状虽然由个体本身的基因型决定,但其基因型与亲本的基因型是存在关系的。 对于同一基因座,在全同胞子代群体中只可能存在有限的几种基因型类型,且这些基因型的 占比符合孟德尔分离比,即一群全同胞群体的单一基因座的基因型组合是可以由对应的亲本 的基因型推算出来的。原理上,当子代数量较多,即群体抽样数目足够时,这种组合和子代 群体表型的关系是可以用来进行关联分析且获得可靠结果的。鱼类通常能产生数目巨大的子 代群体,且体外受精模式也使得大规模泛交群体的构建十分容易,能恰好满足这种关联分析 所需的条件。因此本专利技术根据鱼类数据的特有繁殖体系特点,利用亲本的基因型与子代表型 数据,基于广义线性模型(GLM),检测单个位点的加性显性效应,并结合标记的连锁不平 衡等信息,构建了新型全基因组关联分析算法。本专利技术的方法仅需对亲本进行重测序而不需 要对大量子代进行测序,极大地减少了一般关联分析中的实验及测序成本,且关联的标记位 点原理上不存在家系效应。同时本方法还可以获得亲本的全基因组SNP、InDel标记库作为 副产物。

技术实现思路

[0005]本专利技术的目的在于提供一种基于亲本基因型和子代表型的全基因组的关联算法,其优点 在于仅需对亲本进行重测序而不需要对大量子代进行测序,极大地减少了一般关联分析中的 测序成本,且关联的标记位点原理上不存在家系效应,同时本方法还可以获得亲本的全基因 组SNP、InDel标记库作为副产物。
[0006]为了实现上述目的,本专利技术采用以下的技术方案:
[0007]基于亲本基因型与子代表型的全基因组关联分析算法,包括以下步骤:
[0008]S1)对待分析亲本进行全基因组重测序;
[0009]S2)获取子代的表型数据(如体重、体长等性状数据);
[0010]S3)使用BWA、Bowtie2等比对软件对S1)中亲本的全基因组重测序数据与其物种 基因组进行比对;
[0011]S4)对得到的比对结果使用SNP检测工具(如GATK、Samtools、BCFtools等)进行 SNP检测(SNP信息保存为VCF文件格式),获得全基因组范围的SNP信息;
[0012]S5)从VCF文件中提取亲本SNP位点的基因型信息,得到SNP位点在亲本中的分型 矩阵;
[0013]S6)接着使用下述原理和方法进行亲本基因型和子代表型的关联分析:
[0014]S6.1)过滤子代表型异常值;
[0015]S6.2)依据子代的亲本信息,结合SNP位点在亲本中的分型矩阵,获得每个SNP位点 不同子代的可能基因型组合信息,以及对应的子代群体分组表型数据;
[0016]S6.3)建立子代组合基因型与表型的统计模型(如广义线性模型(GLM)、混合线性模 型(MLM)等),进行基因型与表型的关联分析,获取表型与各SNP位点的关联P值,以 此初步确定是否为显著关联位点;此时,如果某位点的单个组合基因型中含有无法分型的情 况(即“NN”),则剔除该处无法分型的值后再进行关联分析,同时,去除所有子代基因型 组合相同(子代基因型没有产生分离);
[0017]S6.4)依据加性显性理论及统计检验原理进行SNP位点的加性效应和显性效应分析;
[0018]进一步地,位点加性效应和显性效应分析方法具体如下:
[0019]首先统计SNP位点的子代基因型组合信息,具体包括各SNP位点子代基因型组合的种 类数、子代基因型组合、各基因型组合对应的子代数目、各基因型组合对应的子代表型平均 值,然后,结合子代基因型组合及其对应子代表型信息,运用下述方法检验位点是否具有加 性或显性效应:
[0020]位点加性效应是指各基因型组合对应子代表型具有以下特征:
[0021]W(1/1
×
1/1)>W(0/1
×
1/1)>W(0/0
×
1/1)≈W(0/1
×
0/1)>W(0/0
×
0/1)>W(0/0
×
0/0)
[0022]位点显性效应是指各基因型组合对应子代表型具有以下特征:
[0023]W(1/1
×
1/1)≈W(0/1
×
1/1)≈W(0/0
×
1/1)>W(0/1
×
0/1)>W(0/0
×
0/1)>W(0/0
×
0/0)
[0024]式中的“0”表示某一条染色体上,某一SNP位点与参考基因组一致的分型,“1”表示 与参考基因组不一致的分型,因此二倍体“0/0”表示两条染色体与参考基因组均一致的纯 合子分型,“1/1”表示两条染色体均不一致的纯合子分型,“0/1”表示一条分型一致、另一 条不一致的杂合子分型;
[0025]“≈”表示符号左右两组子代表型经统计检验没有显著性差异,“>”表示符号左边的子 代表型均值大于右边的子代表型均值,且符号左右两边的子代表型数据经统计检验具有显著 性差异;
[0026]同一个位点可能同时具有加性效应和显性效应,例如,子代在某一个位点的基因型组合 只有0/0
×
0/1和0/0
×
0/0两种类型,0/0
×
0/1基因型组合的子代表型均值大于0/0
采集到有效的子代表型数据)的1729尾子代表型数据(示例:表1):
[0042]表1:1729尾子代体重数据(示例)
[0043]样本编号母本父本体重(g)A1681F14M12109.16B0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于亲本基因型与子代表型的全基因组关联分析算法,其特征在于,包括以下步骤:S1)对待分析亲本进行全基因组重测序;S2)获取子代的表型数据;S3)将亲本的全基因组重测序数据与其物种基因组进行比对;S4)对得到的比对结果使用SNP检测工具进行SNP检测,获得全基因组范围的SNP信息;S5)提取亲本SNP位点的基因型信息,得到SNP位点在亲本中的分型矩阵;S6)接着使用下述原理和方法进行亲本基因型和子代表型的关联分析:S6.1)过滤子代表型异常值;S6.2)依据子代的亲本信息,结合SNP位点在亲本中的分型矩阵,获得每个SNP位点不同子代的可能基因型组合信息,以及对应的子代群体分组表型数据;S6.3)建立子代组合基因型与表型的统计模型,进行基因型与表型的关联分析,获取表型与各SNP位点的关联P值;S6.4)依据加性显性理论及统计检验原理进行SNP位点的加性效应和显性效应分析;S6.5)检测全基因组SNP位点的连锁不平衡衰减效应,确定超强相关标记的平均距离D
LD
;S6.6)使用snpEFF软件分析各位点在基因组上的位置,获得位点的基因组注释信息,对所有SNP按照所属基因进行分组;S6.7)筛选显著关联基因,具体分为以下步骤:

设定距离阈值K,K设置为小于5000的正数,获取基因上以及距离基因上下游K bp以内的SNP位点;

筛选出S6.4)中标记出的具有加性或显性效应的位点;

确定关联P值的阈值p0,依据S6.3)中计算出的各位点关联P值,筛选出以基因为分组单元的各组区域内连续2个及以上位点关联P值小于p0的区域块;

计算上述区域块上起始位点与终止位点之间的距离D,设置距离阈值d=max{350,D
LD
},筛选出D大于d的区域块,将这些区域块确定为候选关联标记;

计算候选关联标记上各位点关联P值的几何均值Pm,设置几何均值的阈值p1,从候...

【专利技术属性】
技术研发人员:夏晓勤石米娟张婉婷程莹寅
申请(专利权)人:中国科学院水生生物研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1