【技术实现步骤摘要】
基于随机森林及LASSO回归解析玉米遗传机理的方法
[0001]本专利技术属于系统生物学\遗传学领域,具体涉及基于随机森林及LASSO回归解析玉米遗传机理的方法。
技术介绍
[0002]全基因组关联分析(GWAS)是剖析复杂数量性状遗传变异的一种有效方法,建立基因型与人类疾病和植物数量性状之间的直接关联已成功鉴定了数千个相关的基因座。在自然界中,植物受到发育阶段、组织和环境刺激的影响共同产生大量的代谢产物,大约在10万到100万种不等,因此经常将代谢组作为基因型和植物表型之间的“桥梁”。代谢表型是数量性状,表型数据差异大,使用代谢组数据作为中间表型。与基因型数据进行关联分析,可以定位到更多的基因,也有可能定位到罕见SNP位点。然而从 GWAS 中鉴定出的变异只能解释总遗传变异的一部分,表型的预测能力有限。
[0003]机器学习和深度学习方法在处理生物学数据方面表现出了巨大的潜力。在生物学中机器学习算法主要应用于两个方面,一个是在缺乏实验数据的地方做出准确预测,并利用这些预测来指导未来的研究工作;二是使用机器学习算法解 ...
【技术保护点】
【技术特征摘要】
1.基于随机森林及LASSO回归解析玉米遗传机理的方法,其特征在于,采用以下步骤:(1)对玉米的多组学数据进行预处理;(2)对预处理后的基因型数据进行连锁不平衡分析,删除连锁不平衡参数值大于0.2的SNP位点后,剩余位点构成新的特征子集;(3)通过新的特征子集和表型数据建立随机森林模型对变量的重要性进行排序,确定重要影响因子,这些影响因子构成新的特征子集;(4)通过上述特征子集和脂质组数据建立LASSO分析模型,对每一种脂质代谢物表型进行预测;(5)使用预测的脂质代谢物数据值结合表型数据建立LASSO分析模型,对表型数据进行预测,使用决定系数R2评估模型,解析玉米遗传机理。2.根据权利要求1所述的方法,其特征在于,步骤(1)所述的多组学数据分别为基因组数据、脂质组数据和表型组数据。3.根据权利要求1所述的方法,其特征在于,步骤(2)所述的基因型数据的获得方法为:基因型文件是hapmap格式的文件,每一行代表一个材料,每一列代表一个SNP位点,原始值是SNP的基因型,在进行后续分析之前,需要对数据进行重新编码,将基因型转换成数值型,采用0
‑1‑
2的编码方式。4.根据权利要求1所述的方法,其特征在于,具体的操作步骤为:(1)基因型文件是hapmap格式的文件,每一行代表一个材料,每一列代表一个SNP位点,原始值是SNP的基因型,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。