一种基于图聚类的基因编码育种预测方法和装置制造方法及图纸

技术编号：36602876 阅读：17 留言：0更新日期：2023-02-04 18:20

本发明专利技术提供了一种基于图聚类的基因编码育种预测方法及装置，本发明专利技术基于基因间相关性强弱构建基因图谱；对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号信息；融合基因等位信息和基因组聚类编号信息，得到样本的基因聚类编码；基于基因聚类编码信息和待预测生物表型信息，构建深度卷积神经网络，以优化基因育种预测性能。本发明专利技术充分利用基因图谱蕴含的基因间相互作用关系网络，能够有效提取用于控制生物表型输出的调控基因特征，解决经典模型输入编码层对基因图谱间基因相互作用关系编码不足的问题，保障生物表型的基因育种预测精准性，进而提高基因育种的速度、效率和质量，尤其产量的提高。尤其产量的提高。尤其产量的提高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图聚类的基因编码育种预测方法和装置

[0001]本专利技术主要涉及作物精准分子育种的基因育种预测领域，主要涉及一种基于图聚类的基因编码育种预测方法和装置。

技术介绍

[0002]随着基因测序技术的发展，实验技术人员通过样本采集、文库制备和测序等湿实验过程，基于测序、PCR(聚合酶链式反应)、基因芯片、光学图谱等可获得大规模、具有数据挖掘应用价值的多样本基因数据信息。全基因组测序后，基因组预测模型准确率很低。以大豆为例，大豆含有约6万基因，其中4万对基因发现8000万突变。而基因型预测表型，只能定性描述，不能定量分析。这极大限制了作物育种的数量、速度、质量，尤其产量的提高。
[0003]为了提高分子育种的准确率，当前面向作物表型的基因预测方法主要包括贝叶斯方法、线性回归、岭回归等传统统计分析方法。而当前在语音、图像和自然语言领域获得极大成功的深度学习方法却因为作物育种领域样本少的缺点无法获得很好的效果。另一方面，基因数据的维度很高，传统的统计分析方法也很难利用特征选择方法在如此高维的基因特征数据中快速提取有效的特征。可见，已有流行方法均无法满足作物分子育种的这种高维小样本问题。
[0004]为了应对作物分子育种的这种高维小样本问题，需要提出创新的基因育种预测方法，以同时解决高维度特征的特征选择提取问题和复杂模型样本基因图谱特征编码不足的问题。

技术实现思路

[0005]本专利技术的目的在于针对现有技术的不足，提出了一种基于图聚类的基因编码育种预测方法和装置，利用基因图谱蕴含的基因...

【技术保护点】

【技术特征摘要】
1.一种基于图聚类的基因编码育种预测方法，其特征在于，包括如下步骤：获取待预测的子代的基因型数据和基因位置信息；基于基因型数据中基因间相关性强弱构建无向图作为基因图谱；对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号；融合基因型数据中每个基因对应的等位基因信息和基因组聚类编号信息，串接得到样本的基因聚类编码；将基因聚类编码、基因位置信息输入至基因编码育种预测模型，获得待预测的子代的生物表型信息；基于预测的子代的生物表型信息，筛选优质种子集合。其中，所述基因编码育种预测模型是基于收集的数据集训练获得的，所述数据集的每一样本数据包括样本的基因聚类编码、基因位置信息和生物表型信息。2.根据权利要求1所述的方法，其特征在于，所述基因间相关性强弱通过计算基因型数据中两两基因的多SNP位点串的相似度得到，方法包括Pearson相关系数、Jaccard相关系数、Spearman相关系数、欧式距离、夹角余弦相似度、曼哈顿距离、汉明距离、编辑距离、切比雪夫距离、闵可夫斯基距离和信息熵；计算得到的相似度作为邻接边权重构建无向图。3.根据权利要求1所述的方法，其特征在于，对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号信息，具体如下：基于基因图谱空间分布特征估算共同调控基因组个数，即基因聚类簇数；根据估算的基因聚类簇数，对每个基因计算类内距离和类间距离，确定该基因归属的聚类；聚类完成后，对每个基因聚类簇给予唯一的聚类编号信息，作为对应基因聚类簇中每...

【专利技术属性】
技术研发人员：吕劲松，陈红阳，王浩，冯献忠，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人