【技术实现步骤摘要】
本专利技术属于分子育种技术范畴,涉及利用生物信息学和深度学习进行基因组选择的方法及系统,尤其涉及对样本基因型数据进行基因组注释和统计后利用自然语言处理的语义值(semantic value)表示方式对样本基因组的序列信息进行特征选择和整合,再按照样本进行特征提取、融合,从而预测样本表型。
技术介绍
1、传统动物育种主要依赖于人工选择,即基于表型数据选育优良个体。然而,随着遗传学的进步,基因型数据与谱系数据逐渐成为了遗传选择的关键因素。基因组选择(genomic selection,gs),也称为基因组预测(genomic prediction,gp),是指通过基因组上的遗传变异(例如snv等)来预测特定表型的一种方法。近年来,gs已经在动植物育种中得到了广泛应用。尤其在畜牧业中,gs被视为能够促进基因型与表型之间的精准联系,并加速育种进程、提升经济性状的遗传增益,从而有效提升育种效率。
2、对于通过捕获线性关系在育种领域取得了显著进展的传统线性混合模型,随着数据量的急剧增加,加之数据类型的复杂性,相关的基因组选择方法,包括基
...【技术保护点】
1.一种基于自然语言处理的基因组选择系统,其特征在于:该系统包括数据预处理模块和表型预测模块;
2.根据权利要求1所述一种基于自然语言处理的基因组选择系统,其特征在于:所述数据预处理模块在对根据样本的基因型数据注释到染色体上的基因按染色体进行排序后将样本基因组中经过注释的所有基因分别利用生成的基因词进行表示并将生成的基因词按顺序组织为与该样本对应的基因语句,所述基因语句中的每个基因词为包含有对应基因的注释区域的变异分布特征和基因间关联信息特征的多维特征向量。
3.根据权利要求2所述一种基于自然语言处理的基因组选择系统,其特征在于:所述注释区域的
...【技术特征摘要】
1.一种基于自然语言处理的基因组选择系统,其特征在于:该系统包括数据预处理模块和表型预测模块;
2.根据权利要求1所述一种基于自然语言处理的基因组选择系统,其特征在于:所述数据预处理模块在对根据样本的基因型数据注释到染色体上的基因按染色体进行排序后将样本基因组中经过注释的所有基因分别利用生成的基因词进行表示并将生成的基因词按顺序组织为与该样本对应的基因语句,所述基因语句中的每个基因词为包含有对应基因的注释区域的变异分布特征和基因间关联信息特征的多维特征向量。
3.根据权利要求2所述一种基于自然语言处理的基因组选择系统,其特征在于:所述注释区域的变异分布特征具体为某基因的外显子、内含子、上游区、下游区、非翻译区、非同义突变、同义突变、ncrna外显子、ncrna内含子、ncrna剪接位点、停运突变、激活突变和剪接位点的变异数量,所述基因间关联信息特征具体为该基因注释区域的与目标表型相关的表达数量性状位点的数量和对该基因注释区域进行基于目标表型的全基因组关联分析所得正向效应值、负向效应值的数量。
4.根据权利要求2或3所述一种基于自然语言处理的基因组选择系统,其特征在于:所述变异来自样本基因组上的单核苷酸多态性位点。
5.根据权利要求1、2或3所述一种基于自然语言处理的基因组选择系统,其特征在于:所述表型预测模块具体包括局部特征提取子模块、长程依赖建模子模块、关键特征权重分配子模块和特征融合及输出子模块,其中局部特征提取子模块利用卷积神经网络提取基因注释区域的特征,...
【专利技术属性】
技术研发人员:刘全中,胡尊豪,姜雨,马浩峰,
申请(专利权)人:西北农林科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。