System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于测序数据优选功能位点的方法及应用技术_技高网

基于测序数据优选功能位点的方法及应用技术

技术编号:39968597 阅读:9 留言:0更新日期:2024-01-09 00:36
本发明专利技术涉及一种基于测序数据优选功能位点的方法,具体步骤为:1.通过基因组测序得到全部样本的SNP位点,在全部样本中随机挑选出若干样本作为发现群体,提取生物学先验信息;2.根据步骤1获得的生物学先验信息划定基因组重要区域;3.全基因组进行划框连锁不平衡过滤,在重要区域内降低LD过滤的阈值或者不进行过滤,提升重要区域的标记密度,最终筛选出性状特异性标记集合。本发明专利技术在进行育种值估计之前,首先进行选择性连锁不平衡位点筛选可以增加位点的信噪比,提升预测准确性。此外降低位点数目可以大幅度降低计算资源和时间的消耗,提升育种效率。

【技术实现步骤摘要】

本专利技术涉及分子遗传学以及农业动物育种领域,具体涉及一种基于测序数据优选功能位点的方法,适用于各个物种的全基因组选择。


技术介绍

1、单核苷酸多态性(single nucleotide polymorphisms,snp)是目前最重要的分子遗传标记,因其在基因组中大量广泛分布,具有极高的检测丰度,且遗传稳定性较高,在分子遗传学中占据了重要地位。近十年来,全基因组预测(genomic prediction,gp)利用大量的snp数据,广泛地应用在动植物复杂性状的遗传价值评估中,其准确性比传统基于系谱的育种方法有很大优势。

2、gp的准确性受到多种因素的影响,例如参考群体大小、有效群体大小、标记密度和质量以及应用与基因组预测的统计模型等。随着测序技术的不断发展和生物信息学算法的改进,基因组预测所能利用到的遗传标记也越来越多。但是,不少研究已经证实,单纯增加遗传标记并不会增加基因组选择准确性,主要原因是测序技术增加的遗传标记在基因组是随机分布的,而并非所有的遗传标记都对目标表型产生贡献。从另一个角度来说,育种关心的重要经济性状直接遗传结构差异,qtl的数目、效应、分布等都不尽相同,因此综合两点来看,如何在信息更加丰富多样的测序数据中进行位点筛选,以得到表型特异性的位点组合,最大化降低对于特定表型的噪音位点影响,增强qtl区域位点的权重,是进一步提升基因组选择准确性,发挥测序数据优势的重要策略。


技术实现思路

1、针对育种实践的需要以及测序数据在基因组选择中的应用,本专利技术的目的在于提供一种基于测序数据,利用生物学先验信息,有选择性地利用连锁不平衡的方法过滤筛选功能位点的方法,并将其用于基因组预测及基因组选择育种应用。

2、一种基于测序数据优选功能位点的方法,具体步骤为:

3、1.通过基因组测序得到全部样本的snp位点,在全部样本中随机挑选出若干样本作为发现群体,提取生物学先验信息;

4、提取生物学先验信息:对发现群体进行全基因组关联分析,根据发现群体的全基因组关联分析结果或者数据库功能注释结果提取生物学先验信息,具体为确定哪些位点与目标性状有关联或对性状变异有影响。或者通过其他方式如基因组功能注释、多组学数据分析等提取生物学先验信息;

5、2.根据步骤1获得的生物学先验信息划定基因组重要区域;

6、3.全基因组进行划框连锁不平衡过滤,在重要区域内降低ld过滤的阈值或者不进行过滤,提升重要区域的标记密度,最终筛选出性状特异性标记集合。

7、步骤1中,snp位点的获取方法为基于低深度测序方法、高深度测序或靶向基因组测序。

8、步骤1中,以不同的p-value梯度确定最佳的候选位点筛选标准,筛选出显著位点。

9、显著性p-value通过混合线性模型公式(3)拟合特定snp位点效应:

10、y=xb+zai+gu+e    (3)

11、其中,y为目标表型值向量,b为固定效应向量,ai为检测位点的效应值,u为随机多基因效应,e为随机残差,x、g分别为固定效应和随机效应的关联矩阵;z为基因型值,编码为0,1,2。

12、步骤3中,基于划框的方法进行连锁不平衡过滤,首先设定r2阈值,去除r2大于阈值的位点,同时保留显著位点以及与显著位点连锁的位点(r2>0.9),使用不同梯度的r2过滤以确定最优的过滤标准,r2表示两个位点之间的连锁不平衡度。

13、用r2(0~1)来表示两个位点之间的连锁不平衡度,0代表两个位点之间是自由组合的,而1代表两个位点处于完全连锁状态,其计算公式如公式(2)所示:

14、d=p(ab)-p(a)*p(b)      (1)

15、

16、其中p(ab)为某位点ab基因型频率,p(a)和p(b)分别为等位基因a和b的频率。

17、上述方法在基因组预测中的应用。

18、上述方法在基因组选择育种中的应用。

19、本专利技术的有益效果:

20、本专利技术应用形式与实际育种情形相匹配:在实际的基因组选择应用中如果使用测序数据,则会产生数以千万计的snp标记位点,因此在进行育种值估计之前,首先进行选择性连锁不平衡位点筛选可以增加位点的信噪比,提升预测准确性。此外降低位点数目可以大幅度降低计算资源和时间的消耗,提升育种效率。

本文档来自技高网...

【技术保护点】

1.一种基于测序数据优选功能位点的方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于测序数据优选功能位点的方法,其特征在于:步骤1)中,SNP位点的获取方法为基于低深度测序方法、高深度测序或靶向基因组测序。

3.如权利要求1所述的基于测序数据优选功能位点的方法,其特征在于:通过全基因组关联分析、数据库功能注释、基因组功能注释或多组学数据分析方式提取生物学先验信息。

4.如权利要求3所述的基于测序数据优选功能位点的方法,其特征在于:以不同的P-value梯度确定最佳的候选位点筛选标准,筛选出显著位点。

5.如权利要求4所述的基于测序数据优选功能位点的方法,其特征在于:显著性P-value通过混合线性模型公式(3)拟合特定SNP位点效应:

6.如权利要求1所述的基于测序数据优选功能位点的方法,其特征在于:步骤3)中,基于划框的方法进行连锁不平衡过滤,首先设定r2阈值,去除r2大于阈值的位点,同时保留显著位点以及与显著位点连锁的位点,使用不同梯度的r2过滤以确定最优的过滤标准,r2表示两个位点之间的连锁不平衡度。p>

7.如权利要求6所述的基于测序数据优选功能位点的方法,其特征在于:r2取值0~1,0代表两个位点之间是自由组合的,而1代表两个位点处于完全连锁状态,其计算公式如公式(2)所示:

8.权利要求1-7任一所述的基于测序数据优选功能位点的方法在基因组预测中的应用。

9.权利要求1-7任一所述的基于测序数据优选功能位点的方法在基因组选择育种中的应用。

...

【技术特征摘要】

1.一种基于测序数据优选功能位点的方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于测序数据优选功能位点的方法,其特征在于:步骤1)中,snp位点的获取方法为基于低深度测序方法、高深度测序或靶向基因组测序。

3.如权利要求1所述的基于测序数据优选功能位点的方法,其特征在于:通过全基因组关联分析、数据库功能注释、基因组功能注释或多组学数据分析方式提取生物学先验信息。

4.如权利要求3所述的基于测序数据优选功能位点的方法,其特征在于:以不同的p-value梯度确定最佳的候选位点筛选标准,筛选出显著位点。

5.如权利要求4所述的基于测序数据优选功能位点的方法,其特征在于:显著性p-value通过混合线性模型公式(3)拟合特定s...

【专利技术属性】
技术研发人员:胡晓湘朱迪王宇哲任江丽李宁
申请(专利权)人:中国农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1