一种基于深度学习模型获取多基因风险评分的方法及系统技术方案

技术编号：24097563 阅读：117 留言：0更新日期：2020-05-09 11:10

本发明专利技术实施例公开了一种基于深度学习模型获取多基因风险评分的方法及系统，其包括：对原始SNP样本数据进行预处理；创建SNP数据与疾病风险评分关系的深度学习模型，所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型；对所述深度学习模型进行优化；基于优化后的深度学习模型对待评分的SNP数据进行评分。本发明专利技术通过使用大量的SNP位点训练对应的深度学习模型，从而拟合出SNP位点与遗传性疾病之间复杂的非线性关系，以更加便捷客观准确的为用户提供PRS评分。

A method and system for obtaining multi gene risk score based on deep learning model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习模型获取多基因风险评分的方法及系统
本专利技术涉及基因检测分析
，尤其涉及一种基于深度学习模型获取多基因风险评分的方法及系统。
技术介绍
单核苷酸多态性(singlenucleotidepolymorphisms，SNP)是人类基因组中最常见的遗传变异，对于遗传性疾病的研究有着重要意义。传统的全基因组关联分析(Genome-wideassociationstudies,GWAS)方法可以找出对疾病影响最显著的SNP位点，但实际上某些疾病的发生是由于多个SNP位点的共同作用。多基因风险评分(PolygenicRiskScores,PRS)的出现为研究遗传性疾病带来了新的方法，PRS可以在个体水平上进行遗传倾向的估计，评估遗传数据在临床环境下的预测能力，也很有可能在未来的精准医学、个性化医疗的发展中发挥重要作用，受到了国内外学者的关注。现有的多基因风险评分方法是通过对GWAS筛选出的SNP线性加权的方式来计算疾病的风险评分，然而，GWAS筛选出的SNP中大多数对疾病只有很小的影响，通常是真正与疾病相关的SNP中的一小部分，而且由于环境和测量带来的噪声以及SNP的连锁不平衡等影响，实际的SNP数据与疾病之间存在复杂的非线性关系，这意味着传统线性模型的预测能力是有限的。鉴于人类基因组中有大约三百万个SNP位点，随着测序技术的发展样本量也会飞速增长，如何利用这些SNP数据计算PRS也成为遗传性疾病研究了一个难点。近年来，深度学习理论迅速发展，该理论相比于其他流行的机器学习方法，主要优势在于可以在大...

【技术保护点】
1.一种基于深度学习模型获取多基因风险评分的方法，其特征在于，包括：/nS1、对原始SNP样本数据进行预处理；/nS2、创建SNP数据与疾病风险评分关系的深度学习模型，所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型；在创建所述深度学习模型之前还包括将预处理之后的SNP样本数据划分为训练数据以及测试数据；/nS3、对所述深度学习模型进行优化；/nS4、基于优化后的深度学习模型对待评分的SNP数据进行评分。/n

【技术特征摘要】
1.一种基于深度学习模型获取多基因风险评分的方法，其特征在于，包括：
S1、对原始SNP样本数据进行预处理；
S2、创建SNP数据与疾病风险评分关系的深度学习模型，所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型；在创建所述深度学习模型之前还包括将预处理之后的SNP样本数据划分为训练数据以及测试数据；
S3、对所述深度学习模型进行优化；
S4、基于优化后的深度学习模型对待评分的SNP数据进行评分。

2.根据权利要求1所述的方法，其特征在于，所述深层神经网络模型的创建过程包括：
S201、设定所述深层神经网络模型的输入层，其中，假定训练样本数为m，SNP位点数为n，则SNP数据对应的矩阵表示为X(m*n)，其中，所述矩阵中的每一行对应一个SNP数据，每一列对应所述SNP数据的位点；
S202、设定所述深层神经网络模型每层之间采用全连接的方式，即除输入层外，模型中各个神经元存储的数据与上一层所有神经元有关，对应的关系如下述公式所示：

其中，Nn,k表示第n层第k个神经元，n≥2，wn-1,k表示第n-1层的第k个神经元的权重，bn-1,k表示第n-1层的第k个神经元的偏置，f()表示激活函数；
S203、基于数据变量对应的表型，计算所述深层神经网络模型前向传播的误差，即若所述表型为连续型变量，则对应的损失函数公式为下述公式

其中标签Y用于计算模型前向传播的误差，表示所述模型前向传播的输出向量，w，b分别表示所述模型中所有神经元的权重和偏置；
若所述表型为二值离散型变量，则对应的损失函数公式为下述公式

其中，y(i)表示标签Y的第i个元素，表示的第i个元素。

3.根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型的创建过程包括：
S211、设定所述卷积神经网络模型的输入层，其中，所述输入层为被表示成1*n*1*m四个维度的SNP样本数据构成；其中前两个维度对应的1与n表示1行n列，以对应每个SNP样本数据的形状，第三个维度1表示通道数，第四维度m表示样本数据的个数；
S212、设定所述卷积神经网络模型的卷积层与池化层，所述卷积层包括多...

【专利技术属性】
技术研发人员：马宝山，李重阳，严浩文，方明坤，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人