一种基于深度学习模型获取多基因风险评分的方法及系统技术方案

技术编号:24097563 阅读:117 留言:0更新日期:2020-05-09 11:10
本发明专利技术实施例公开了一种基于深度学习模型获取多基因风险评分的方法及系统,其包括:对原始SNP样本数据进行预处理;创建SNP数据与疾病风险评分关系的深度学习模型,所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型;对所述深度学习模型进行优化;基于优化后的深度学习模型对待评分的SNP数据进行评分。本发明专利技术通过使用大量的SNP位点训练对应的深度学习模型,从而拟合出SNP位点与遗传性疾病之间复杂的非线性关系,以更加便捷客观准确的为用户提供PRS评分。

A method and system for obtaining multi gene risk score based on deep learning model

【技术实现步骤摘要】
一种基于深度学习模型获取多基因风险评分的方法及系统
本专利技术涉及基因检测分析
,尤其涉及一种基于深度学习模型获取多基因风险评分的方法及系统。
技术介绍
单核苷酸多态性(singlenucleotidepolymorphisms,SNP)是人类基因组中最常见的遗传变异,对于遗传性疾病的研究有着重要意义。传统的全基因组关联分析(Genome-wideassociationstudies,GWAS)方法可以找出对疾病影响最显著的SNP位点,但实际上某些疾病的发生是由于多个SNP位点的共同作用。多基因风险评分(PolygenicRiskScores,PRS)的出现为研究遗传性疾病带来了新的方法,PRS可以在个体水平上进行遗传倾向的估计,评估遗传数据在临床环境下的预测能力,也很有可能在未来的精准医学、个性化医疗的发展中发挥重要作用,受到了国内外学者的关注。现有的多基因风险评分方法是通过对GWAS筛选出的SNP线性加权的方式来计算疾病的风险评分,然而,GWAS筛选出的SNP中大多数对疾病只有很小的影响,通常是真正与疾病相关的SNP中的一小部分,而且由于环境和测量带来的噪声以及SNP的连锁不平衡等影响,实际的SNP数据与疾病之间存在复杂的非线性关系,这意味着传统线性模型的预测能力是有限的。鉴于人类基因组中有大约三百万个SNP位点,随着测序技术的发展样本量也会飞速增长,如何利用这些SNP数据计算PRS也成为遗传性疾病研究了一个难点。近年来,深度学习理论迅速发展,该理论相比于其他流行的机器学习方法,主要优势在于可以在大样本、高维度的情况下进行有效学习,这也使得该理论在多个领域中得到广泛应用。因此如何有效地两者结合以将深度学习理论应用到PRS中成为研究重点。
技术实现思路
基于此,为解决现有技术所存在的不足,特提出了一种基于深度学习模型获取多基因风险评分的方法。一种基于深度学习模型获取多基因风险评分的方法,其特征在于,包括:S1、对原始SNP样本数据进行预处理;S2、创建SNP数据与疾病风险评分关系的深度学习模型,所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型;S3、对所述深度学习模型进行优化;S4、基于优化后的深度学习模型对待评分的SNP数据进行评分。可选的,在其中一个实施例中,所述S2中在创建SNP数据与疾病风险评分关系的深度学习模型之前还包括:将预处理之后的SNP样本数据划分为训练数据以及测试数据。可选的,在其中一个实施例中,所述深层神经网络模型的创建过程包括:S201、设定所述深层神经网络模型的输入层,其中,假定训练样本数为m,SNP位点数为n,则SNP数据对应的矩阵表示为X(m*n),其中,所述矩阵中的每一行对应一个SNP数据,每一列对应所述SNP数据的位点;S202、设定所述深层神经网络模型每层之间采用全连接的方式,即除输入层外,模型中各个神经元存储的数据与上一层所有神经元有关,对应的关系如下述公式所示:其中,Nn,k表示第n层第k个神经元,n≥2,wn-1,k表示第n-1层的第k个神经元的权重,bn-1,k表示第n-1层的第k个神经元的偏置,f()表示激活函数;S203、基于数据变量对应的表型,计算所述深层神经网络模型前向传播的误差,即所述表型为连续型变量,则对应的损失函数公式为下述公式其中标签Y用于计算模型前向传播的误差,表示所述模型前向传播的输出向量,w,b分别表示所述模型中所有神经元的权重和偏置;即所述表型为二值离散型变量,则对应的损失函数公式为下述公式其中,y(i)表示标签Y的第i个元素,表示的第i个元素。可选的,在其中一个实施例中,所述卷积神经网络模型的创建过程包括:S211、设定所述卷积神经网络模型的输入层,其中,所述输入层为被表示成1*n*1*m四个维度的SNP样本数据构成;其中前两个维度对应的1与n表示1行n列,以对应每个SNP样本数据的形状,第三个维度1表示通道数,第四维度m表示样本数据的个数;S212、设定所述卷积神经网络模型的卷积层与池化层,所述卷积层包括多个1*f大小的卷积核组成,其中,卷积核的个数对应该层输出数据的通道数;S213、设定输出层以及连接所述池化层与输出层的全连接层;S214、基于数据变量对应的表型,计算所述卷积神经网络模型前向传播的误差,即若所述表型为连续型变量,则对应的损失函数公式为下述公式若所述表型为离散型变量,则对应的损失函数公式为下述公式其中,wfilter,bfilter,wfc,bfc分别表示卷积核的权重、偏置,全连接层神经元的权重、偏置。可选的,在其中一个实施例中,所述残差神经网络模型的创建过程包括:S221、设定所述残差神经网络模型的输入层,其中,所述输入层为被表示成1*n*1*m四个维度的SNP样本数据构成;其中前两个维度对应的1与n表示1行n列,即1行n列对应每个SNP样本数据的形状,第三个维度1表示通道数,第四维度m表示样本数据的个数;S222、设定所述残差神经网络模型的卷积层和池化层,所述卷积层包括多个1*f大小的卷积核组成,其中,卷积核的个数对应该层输出数据的通道数;且为实现在不增加计算量的同时改变该层的通道数则在该层对应的支路上使用1*1的卷积核进行处理;S223、设定输出层以及连接所述池化层与输出层的全连接层;S224、基于数据变量对应的表型,计算所述残差神经网络模型前向传播的误差,即若所述表型为连续型变量,则对应的损失函数公式为下述公式若所述表型为离散型变量,则对应的损失函数公式为下述公式其中,wfilter,bfilter,wfc,bfc分别表示卷积核的权重、偏置,全连接层神经元的权重、偏置。另,本专利技术还提出了一种基于深度学习模型获取多基因风险评分的系统,其特征在于,包括:数据预处理单元,该单元能够对原始SNP样本数据进行预处理;模型创建单元,该单元能够创建SNP数据与疾病风险评分关系的深度学习模型,所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型;模型优化单元,该单元能够对所述深度学习模型进行优化;数据评分单元,该单元能够基于优化后的深度学习模型对待评分的SNP数据进行评分。此外,为解决传统技术在面对现有技术所存在的不足,还提出了一种计算机可读存储介质,包括计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行所述的方法。实施本专利技术实施例,将具有如下有益效果:鉴于现有技术忽视了实际的SNP数据与疾病之间存在复杂的非线性关系,本专利技术所设计的方案,通过使用大量的SNP位点训练对应的深度学习模型,从而拟合出SNP位点与遗传性疾病之间复杂的非线性关系,以更加便捷客观准确的为用户提供PRS评分。附图说明为了更清楚地说明本专利技术实施例或现本文档来自技高网
...

【技术保护点】
1.一种基于深度学习模型获取多基因风险评分的方法,其特征在于,包括:/nS1、对原始SNP样本数据进行预处理;/nS2、创建SNP数据与疾病风险评分关系的深度学习模型,所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型;在创建所述深度学习模型之前还包括将预处理之后的SNP样本数据划分为训练数据以及测试数据;/nS3、对所述深度学习模型进行优化;/nS4、基于优化后的深度学习模型对待评分的SNP数据进行评分。/n

【技术特征摘要】
1.一种基于深度学习模型获取多基因风险评分的方法,其特征在于,包括:
S1、对原始SNP样本数据进行预处理;
S2、创建SNP数据与疾病风险评分关系的深度学习模型,所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型;在创建所述深度学习模型之前还包括将预处理之后的SNP样本数据划分为训练数据以及测试数据;
S3、对所述深度学习模型进行优化;
S4、基于优化后的深度学习模型对待评分的SNP数据进行评分。


2.根据权利要求1所述的方法,其特征在于,所述深层神经网络模型的创建过程包括:
S201、设定所述深层神经网络模型的输入层,其中,假定训练样本数为m,SNP位点数为n,则SNP数据对应的矩阵表示为X(m*n),其中,所述矩阵中的每一行对应一个SNP数据,每一列对应所述SNP数据的位点;
S202、设定所述深层神经网络模型每层之间采用全连接的方式,即除输入层外,模型中各个神经元存储的数据与上一层所有神经元有关,对应的关系如下述公式所示:



其中,Nn,k表示第n层第k个神经元,n≥2,wn-1,k表示第n-1层的第k个神经元的权重,bn-1,k表示第n-1层的第k个神经元的偏置,f()表示激活函数;
S203、基于数据变量对应的表型,计算所述深层神经网络模型前向传播的误差,即若所述表型为连续型变量,则对应的损失函数公式为下述公式



其中标签Y用于计算模型前向传播的误差,表示所述模型前向传播的输出向量,w,b分别表示所述模型中所有神经元的权重和偏置;
若所述表型为二值离散型变量,则对应的损失函数公式为下述公式



其中,y(i)表示标签Y的第i个元素,表示的第i个元素。


3.根据权利要求1所述的方法,其特征在于,所述卷积神经网络模型的创建过程包括:
S211、设定所述卷积神经网络模型的输入层,其中,所述输入层为被表示成1*n*1*m四个维度的SNP样本数据构成;其中前两个维度对应的1与n表示1行n列,以对应每个SNP样本数据的形状,第三个维度1表示通道数,第四维度m表示样本数据的个数;
S212、设定所述卷积神经网络模型的卷积层与池化层,所述卷积层包括多...

【专利技术属性】
技术研发人员:马宝山李重阳严浩文方明坤
申请(专利权)人:大连海事大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1