System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于机器学习的葡萄无核性状全基因组选择育种方法及其应用技术_技高网

基于机器学习的葡萄无核性状全基因组选择育种方法及其应用技术

技术编号:40600847 阅读:3 留言:0更新日期:2024-03-12 22:05
本发明专利技术公开了一种基于机器学习的葡萄无核性状全基因组选择育种方法及其应用,利用机器学习(Machine Learning)和基因组预测(Genome Prediction)的方法,搭建了一种适合早期实生苗的种子败育的预测方法,并可以对杂交后代的有核、无核性状进行批量、标准化预测。本发明专利技术可以缩短育种周期、减少资源和成本投入,实现标准化、精准化育苗,在未来葡萄育种领域和国际市场具有重要应用价值。

【技术实现步骤摘要】

本专利技术涉及无核葡萄早期筛选,特别涉及一种基于机器学习的葡萄无核性状全基因组选择育种方法及其应用


技术介绍

1、随着我国居民生活水平的提高,鲜食葡萄的无核特性逐渐受到消费者青睐。放眼全球市场,无核水果已实现标准化生产,例如香蕉、西瓜、橙子、柑橘等,创造了巨大的商业价值。据fao最新的统计结果显示,2021年全球葡萄栽培面积为71.18万公顷和74.74万吨的产量位居全球第四大经济类果树,具有庞大的市场消费潜力。目前,通过对有核葡萄的花絮喷施或浸泡一定浓度的赤霉素(ga3)和辅助剂(吡效隆cppu、噻苯隆tdz、玉米素zt等),可以直接刺激子房非受精发育达到无核效果。尽管该方法已充分应用于葡萄无核标准化生产中,但这势必会增加劳动成本和食品安全风险。因此,如何从源头上解决无核葡萄的育种问题,逐渐成为了科学家和育种者的研究热点。

2、随着胚挽救技术应用的普及,无核葡萄的二倍体和三倍体育种成为了可能,例如森田尼无核(2n)、火焰无核(2n)、无核早红8611(3n)、夏黑(3n)等。尽管三倍体葡萄可以通过非正常的减数分裂产生无籽果实,但是它在自然生长过程中的座果能力、果粒大小远低于二倍体,各类生长调节剂促产后会加重果实采后落粒的现象。因此,无核葡萄二倍体育种仍然占据着主要地位。通常,葡萄二倍体杂交后代筛选需要经历2-3年的童期生长才能获得果实,较长的育种年限无疑增加了资源的投入。为了减少资源浪费、实现精细化管理,科学家们开发了一系列与无核性状相关的分子标记(markers)来辅助育种,例如5u_vviagl11、p3_vviagl11、vmc7f2、scc8和vrsd10等。尽管具有一定的辨识度,但仍然会出现假阳性和假阴性的结果。研究表明,葡萄无核性状是受多个微效基因座的关联基因共同调控的结果,基于某一变异位点或某一基因来区分有核和无核,势必导致部分错误的结果,造成人力成本的增加和种质资源的损失。因此,如何提升无核葡萄的早期实生苗的筛选精度,成为了育种领域亟待解决的问题。


技术实现思路

1、根据本专利技术第一实施例,提供了一种基于机器学习的葡萄无核性状全基因组选择育种方法,包含以下步骤:

2、获取葡萄样本;

3、对葡萄样本进行全基因组重测序,并收集测序数据;

4、将测序数据分成训练集和测试集;

5、将训练集中的数据进行清洗,同时对参考基因组建立索引目录;

6、将清洗后的数据导入gtx软件中进行变异呼叫、过滤筛选得到有效变异位点;

7、对有效变异位点进行全基因组关联分析,获得高质量变异位点;

8、将高质量变异位点的数据和表型数据导入若干经典预测模型中进行模拟预测;

9、可视化各类模型的预测准确度结果;

10、比较各类模型,筛选出预测结果精度高的模型。

11、进一步,葡萄样本包含:有核葡萄样本和无核葡萄样本。

12、进一步,还包含以下步骤:

13、将测试集中的数据进行清洗,同时对参考基因组建立索引目录;

14、将清洗后的数据导入gtx软件中进行变异呼叫、过滤筛选得到有效变异位点;

15、对有效变异位点进行全基因组关联分析,获得高质量变异位点;

16、对测试集样本中有效变异位点的缺失值进行填充,并进一步提取测试集样本中的高质量变异位点;

17、将测试集中的高质量变异位点数据导入筛选出预测结果精度高的模型进行进一步预测;

18、比较预测值,筛选出最佳的预测模型。

19、进一步,还包含以下步骤:测试集样本中有效变异位点的缺失值须经过训练集数据的填充。

20、进一步,最佳预测模型为机器学习svr-poly模型。

21、进一步,高质量变异位点是基于训练集全基因组关联分析找到的与葡萄种子败育显著关联的794个变异位点,其中包括77个插入缺失变异(indels)和717个单核苷酸多态性变异(snps)。

22、本实施例的有益效果为:通过比较预测准确度,筛选出了适合葡萄无核表型的最佳预测模型。

23、根据本专利技术第二实施例,提供了一种将前一实施例中的基于机器学习的葡萄无核性状全基因组选择育种方法在预测葡萄无核性状中的应用,包含以下步骤:

24、获取待检测葡萄样本;

25、对待检测葡萄样本进行全基因组重测序,并收集测序数据;

26、将待检测葡萄样本的测序数据进行清洗;

27、将清洗后的数据导入gtx软件中进行变异呼叫、过滤筛选得到变异位点;

28、将变异位点数据导入机器学习svr-poly模型或elasticnetcv模型进行预测;

29、得出预测结果并可视化预测结果。

30、本实施例的有益效果为:能够有效预测葡萄无核性状,降低了种植成本。

31、要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。

本文档来自技高网...

【技术保护点】

1.一种基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,包含以下步骤:

2.如权利要求1所述的基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,所述葡萄样本包含:有核葡萄样本和无核葡萄样本。

3.如权利要求1所述的基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,还包含以下步骤:

4.如权利要求3所述的基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,还包含以下步骤:所述测试集样本中有效变异位点的缺失值须经过训练集数据的填充。

5.如权利要求4所述的基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,所述最佳预测模型为机器学习SVR-poly模型。

6.如权利要求1所述的基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,所述高质量变异位点是基于训练集全基因组关联分析找到的与葡萄种子败育显著关联的794个变异位点,其中包括77个插入缺失变异和717个单核苷酸多态性变异。

7.权利要求1~6任一项所述的基于机器学习的葡萄无核性状全基因组选择育种方法在预测葡萄无核性状中的应用,其特征在于,包含以下步骤:

...

【技术特征摘要】

1.一种基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,包含以下步骤:

2.如权利要求1所述的基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,所述葡萄样本包含:有核葡萄样本和无核葡萄样本。

3.如权利要求1所述的基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,还包含以下步骤:

4.如权利要求3所述的基于机器学习的葡萄无核性状全基因组选择育种方法,其特征在于,还包含以下步骤:所述测试集样本中有效变异位点的缺失值须经过训练集数据的填充。

...

【专利技术属性】
技术研发人员:周永锋王旭刘众杰史小丫王月独梦蕊
申请(专利权)人:中国农业科学院深圳农业基因组研究所岭南现代农业科学与技术广东省实验室深圳分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1