System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用技术_技高网

一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用技术

技术编号:41198255 阅读:5 留言:0更新日期:2024-05-07 22:25
本发明专利技术公开了一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用,属于杨树的生物育种领域。本发明专利技术基于全基因组关联分析,鉴定与杨树材性性状显著相关的SNP位点。在此基础上,针对不同统计模型和不同数量SNP标记对全基因组选择预测精度的影响进行了比较,并建立了一种基于机器学习模型和材性性状显著关联位点的最优全基因组选择预测体系。该体系具备快速、高效且精准预测杨树木材品质优良种质的能力,其预测准确度高达0.84。因此,本发明专利技术能够实现对杨树材性性状的早期预测,精准高效筛选出木材品质优良种质材料,从而缩短林木育种周期,提高林木选育强度,加速林木优良种质的选育进程。

【技术实现步骤摘要】

本专利技术属于杨树的生物育种领域,涉及一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用


技术介绍

1、森林在陆地生态系统中发挥不可或缺的作用,同时为人类提供了关键的可再生能源和生物质资源。木材作为一种重要的可再生和可持续利用资源,不仅为工业提供关键的原材料,还是生物能源物质以及其他许多化学产品的主要来源。木材主要由纤维素、半纤维素和木质素组成,其中纤维素和半纤维素占木材干重的65%至75%,在生物能源转化、制浆造纸过程以及产品质量中发挥着关键作用。木质素含量影响着木材的结构和性能,增加木质素含量可以提高木材的硬度和耐用性。木材的基本密度与其机械强度密切相关,其大小直接影响最终产品的产量和质量,也是影响纤维产品质量的重要因素。木材密度以及其化学组分含量直接关系到木材品质和经济效益,是评估木材质量和确定木材用途的重要标准,也是改善木材品质的关键研究内容。

2、杨树因其速生、丰产、木材品质优良等特点而被广泛栽培,是林木育种研究中的重要模式树种。中国拥有世界杨树人工林总面积的五分之四,栽植面积居全球首位,在我国的工业用材林和生态防护林建设中发挥着重要作用。目前,我国造纸及纸板生产和消费量均居全球首位,但纸浆原料自给率严重不足。木材材性性状是杨树遗传改良研究的重要方向,直接关系到培育材种、收获年限以及经济效益等方面,对促进速生丰产林发展和生态建设、提高林业生产力具有重要意义。

3、木材的材性性状呈现出明显的数量遗传特点,受到多基因、多层次、多途径协同控制,具有极其复杂的遗传调控机制。随着分子生物学和基因组学的发展,基于分子标记辅助选择(mas)技术的遗传作图和关联分析克服了传统数量遗传学研究方法的局限,能够显著提高数量性状基因定位的精度。在后基因组时代,林木高密度遗传连锁图谱的构建和全基因组关联分析(gwas)为深入揭示林木数量性状的遗传机制奠定了基础,为林木遗传改良和育种提供了重要的基因资源。然而,考虑到林木生长周期长且基因组杂合度高,基因编辑技术在批量进行相关性状遗传改良方面仍面临一定的挑战。

4、全基因组选择(gs)是一种由meuwissen等人于2001年首次提出的高效精准育种策略。该方法利用全部分子标记对候选个体的基因组进行估计,预测其育种值并进行选择。gs能够快速从大量种质资源中选择出具有优异性状的基因型,提高对微效多基因控制复杂性状以及低遗传力性状的选择效率。通过增加选择强度和准确性,gs能够加速育种周期,降低育种成本,从而有助于定向、高效地实现育种改良,解决生产问题。尽管全基因组选择育种在动物育种、小麦、玉米和水稻等粮食作物育种中有了一定的研究,但在林木育种方面却鲜有报道。目前尚未见报道有关杨树材性性状的全基因组选择模型。


技术实现思路

1、针对现有技术的不足,本专利技术要解决的技术问题是提供一种基于全基因组选择的杨树材性性状最优预测体系的构建方法,用于筛选杨树速生良种;本专利技术要解决的另外一个技术问题是提供基于全基因组选择的杨树材性性状最优预测体系;本专利技术还要解决的技术问题是提供基于全基因组选择的杨树材性性状最优预测体系的应用。

2、为了解决上述技术问题,本专利技术所采用的技术方案如下:

3、一种基于全基因组选择的杨树材性性状最优预测体系的构建方法,包括:

4、1)对296株杨树进行基因组重测序和基因分型,获得4,766,585个高质量的snp位点;

5、2)基于获得的4,766,585个高质量snp位点,结合296株杨树材性性状表型数据,对杨树材性性状进行全基因组关联分析,获得7个不同的snp基因型位点集;

6、3)通过5折交叉验证方法,将296株杨树群体的80%作为训练群体;在训练群体中利用296株杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的snp位点集数据,建立杨树材性性状全基因组选择预测模型;

7、4)将杨树材性性状全基因组选择预测模型进行验证筛选,最终获得杨树材性性状最优预测体系。

8、所述杨树材性性状全基因组选择预测模型由杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的snp基因型位点集数据建立而成。

9、所述7个不同的snp基因型位点集由全基因组关联分析获得的140个显著关联的snp位点集、全基因组关联分析p值从小到大排序前1000个snp位点集、全基因组关联分析p值从小到大排序前2000个snp位点集、全基因组关联分析p值从小到大排序前3000个snp位点集、全基因组关联分析p值从小到大排序前4000个snp位点集、全基因组关联分析p值从小到大排序前5000个snp位点集和全基因组关联分析p值从小到大排序前6000个snp位点集。

10、所述16种全基因组选择统计模型为最佳线性无偏预测模型gblup、rrblup和贝叶斯模型brr、bayesa、bayesb、bayesc、bayes lasso和机器学习模型ridge、linear lasso、elasticnet、linearregression、kernel ridge、plsregression、random forest、svrlinear、svrpoly。

11、所述杨树材性性状表型数据为木材基本密度、纤维素含量、半纤维素含量和木质素含量。

12、所述杨树材性性状全基因组选择预测模型的验证筛选过程为通过5折交叉验证方法,将杨树群体的20%作为测试群体;利用基因型数据和预测模型在验证群体中估算杨树材性性状的育种值,该过程重复迭代500次,并以测试群体育种值与实际观测值的pearson相关系数均值作为评价全基因组选择预测准确性的指标;最终通过这一指标确定最优全基因组选择统计模型和最优snp基因型位点集,最优全基因组选择统计模型和最优snp基因型位点集组成了杨树材性性状全基因组选择的最优预测体系。

13、所述最优全基因组选择统计模型为机器学习模型ridge、linearregression、svrlinear。

14、所述最优snp基因型位点集为数量为5000的snp位点集。

15、基于全基因组选择的杨树材性性状最优预测体系的构建方法,具体步骤包括:

16、1)采用wgs基因组重测序技术,利用illuminahiseq6000高通量测序平台对296株杨树植株进行了双末端pe150测序;使用bwa工具将测序数据比对到美洲黑杨的参考基因组上,得到bam格式的比对结果;为提高后续变异检测的准确性,对比对结果进行预处理,包括去除pcr重复序列、质量控制、局部重比对、碱基质量值校正;随后使用gatk中的haplotypecaller工具进行了单核苷酸变异和插入/缺失的检测;变异结果首先通过gatk中的variantfiltration工具基于质量和深度指标进行初步过滤,去除假阳性和伪变异;接着,利用plink和vcftools软件对基因型进行严格过滤,其中过滤标准包括测序深度大于3x、完整度大于0.本文档来自技高网...

【技术保护点】

1.一种基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,包括:

2.根据权利要求1所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述杨树材性性状全基因组选择预测模型由杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的SNP基因型位点集数据建立而成。

3.根据权利要求1或2所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述7个不同的SNP基因型位点集由全基因组关联分析获得的140个显著关联的SNP位点集、全基因组关联分析P值从小到大排序前1000个SNP位点集、全基因组关联分析P值从小到大排序前2000个SNP位点集、全基因组关联分析P值从小到大排序前3000个SNP位点集、全基因组关联分析P值从小到大排序前4000个SNP位点集、全基因组关联分析P值从小到大排序前5000个SNP位点集和全基因组关联分析P值从小到大排序前6000个SNP位点集。

4.根据权利要求1或2所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述16种全基因组选择统计模型为最佳线性无偏预测模型GBLUP、rrBLUP和贝叶斯模型BRR、BayesA、BayesB、BayesC、Bayes Lasso和机器学习模型Ridge、Linear Lasso、ElasticNet、LinearRegression、Kernel Ridge、PLSRegression、RandomForest、SVRlinear、SVRpoly。

5.根据权利要求1或2所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述杨树材性性状表型数据为木材基本密度、纤维素含量、半纤维素含量和木质素含量。

6.根据权利要求5所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述最优全基因组选择统计模型为机器学习模型Ridge、LinearRegression、SVRlinear。

7.根据权利要求5所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述最优SNP基因型位点集为数量为5000的SNP位点集。

8.根据权利要求1所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,具体步骤包括:

9.基于全基因组选择的杨树材性性状最优预测体系,其特征在于,由最优全基因组选择统计模型和最优SNP基因型位点集组成;所述最优全基因组选择统计模型为机器学习模型Ridge、LinearRegression、SVRlinear;所述最优SNP基因型位点集为数量为5000的SNP位点集。

10.权利要求9所述的基于全基因组选择的杨树材性性状最优预测体系在杨树速生良种选育中的应用。

...

【技术特征摘要】

1.一种基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,包括:

2.根据权利要求1所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述杨树材性性状全基因组选择预测模型由杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的snp基因型位点集数据建立而成。

3.根据权利要求1或2所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述7个不同的snp基因型位点集由全基因组关联分析获得的140个显著关联的snp位点集、全基因组关联分析p值从小到大排序前1000个snp位点集、全基因组关联分析p值从小到大排序前2000个snp位点集、全基因组关联分析p值从小到大排序前3000个snp位点集、全基因组关联分析p值从小到大排序前4000个snp位点集、全基因组关联分析p值从小到大排序前5000个snp位点集和全基因组关联分析p值从小到大排序前6000个snp位点集。

4.根据权利要求1或2所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述16种全基因组选择统计模型为最佳线性无偏预测模型gblup、rrblup和贝叶斯模型brr、bayesa、bayesb、bayesc、bayes lasso和机器学习模型ridge、linear lasso、elasticnet、linearre...

【专利技术属性】
技术研发人员:韦素云尹佟明郭臣臣吴怀通戴晓港陈赢男
申请(专利权)人:南京林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1