System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度迁移学习的调控变异预测方法技术_技高网
当前位置: 首页 > 专利查询>鲁东大学专利>正文

一种基于深度迁移学习的调控变异预测方法技术

技术编号:40870207 阅读:2 留言:0更新日期:2024-04-08 16:36
本发明专利技术属于生物信息学领域,涉及一种基于深度迁移学习的调控变异预测方法,其中包括卷积自编码器、多任务学习和迁移学习等技术。该方法的核心思想是在非编码变异数据上预训练模型,通过半监督方法学习非编码变异的底层特征表示能力。包括如下步骤:首先构建源域样本和目标域样本,并对DNA序列进行独热编码;其次使用卷积自编码器,通过多任务学习,训练特征提取器;最后将源域样本知识迁移到目标域,辅助模型在目标域进行预测。本方法采用半监督学习方法进行预训练,极大的保留了源域数据的底层特征,可以有效对候选变异进行筛选,对未来的实验验证具有重要意义。

【技术实现步骤摘要】

本专利技术属于生物信息学领域,涉及一种基于深度迁移学习的调控变异预测方法,其中包括卷积自编码器、多任务学习和迁移学习等技术。


技术介绍

1、预测人类基因组中的功能性或者致病性调控变异有助于解释疾病的因果关系。但是由于连锁不平衡,某个基因座上的等位基因往往与其相邻基因座上的等位基因一起遗传,不确定到底是该基因座自身的变异导致了相关性,还是与其连锁的其他基因座所导致,很难从多个相关变异中确定可能的因果变异。

2、大规模平行报告基因测定(以下简称mpra)是一种高通量的功能分析方法,通过在单个实验中研究成千上万个基因序列及其变体的调控活性,为评估遗传变异的功能效应提供了重要的机会。

3、随着mpra实验越来越流行,发现了越来越多的功能性非编码变异,但是与人类基因组的规模相比,经过验证的非编码变异数量仍然很少。现有的迁移学习在源域进行预训练时通常只考虑模型的预测性能,而忽略了特征压缩的能力,导致模型迁移到目标域后特征压缩能力不足,性能下降,这限制了开发一个有效的深度迁移学习模型来预测非编码变异的功能。特征压缩的目的是从高维特征中提取出最关键和有用的信息,并以更低维度的形式表示。通过特征压缩和特征重构,可以过滤掉无关特征和噪声,提取出更精确和鲁棒的特征表示,使得模型具备更强的泛化能力。此外,多任务学习的优势也在于特征提取和预测的联合建模,它可以提高深度迁移学习模型的性能。


技术实现思路

1、本专利技术最重要的创新点是采用半监督的训练模式,通过多任务学习使模型在源域进行预训练时,可以兼顾特征压缩与模型预测的能力,有效巩固非编码变异底层特征的学习。另外,针对目标任务对模型的全连接层进行训练,构成一个完整的针对目标任务的预测模型,提高了对mpra验证变异的预测精度。

2、一种基于深度迁移学习的调控变异预测方法,包括dna序列的预处理、模型构建、模型预训练、模型迁移和模型预测五个过程,其具体步骤如下:

3、步骤1、dna序列的预处理:首先构建源域数据,获得 m个长度为 p的非编码区通用变异,并获取对应的标签;其次构建目标域数据,获得 n个长度为 p的非编码调控变异,并获取对应的标签;将获得的数据进行独热编码,组成训练数据和测试数据;

4、步骤2、模型构建:使用一维卷积自编码器对独热矩阵进行特征压缩,将得到的特征输入前馈神经网络学习特征映射并进行分类,同时将特征输入到一维卷积自解码器进行特征重构;

5、步骤3、模型预训练:采用交叉熵误差计算前馈神经网络的预测结果与真实标签的差异,同时采用均方误差计算一维卷积自动解码器的输出特征与输入特征的差异,并将二者损失混合后进行反向传播训练模型;

6、步骤4、模型迁移:将步骤3获得的编码器迁移到目标域数据进行特征压缩,并结合前馈神经网络进行训练,为了防止过拟合,编码器不进行微调,只针对新的前馈神经网络进行再训练,保存训练好的模型;

7、步骤5、模型预测:使用步骤4训练好的模型对目标域测试数据进行预测,获得分类的结果。

8、一种基于深度迁移学习的调控变异预测方法,步骤1的实现过程如下:

9、对获得的dna序列数据进行独热编码,具体是根据序列中a、c、g、t 四种碱基分别对应[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]四种数据矩阵来编码,编码后源域数据和目标域数据对应维度分别是 m× p×4, n× p×4,其中 m为源域数据的个数, n为目标域数据的个数, p为序列的长度。

10、一种基于深度迁移学习的调控变异预测方法,步骤2的实现过程如下:

11、模型构建部分包括主干网络和预测网络,由一维卷积自编码器,一维卷积自解码器,前馈神经网络构成;主干网络以独热矩阵作为输入,第一层使用一维卷积层,第二层使用一维最大池化层,第三层使用一维上采样层,第四层使用一维反卷积层,第五层使用一维反卷积层;其中第一层中卷积核个数是30,窗口长度是30,第二层的池化步长大小为7,第三层的上采样因子为7,第四层中卷积核个数是30,窗口长度是30,第五层中卷积核个数是4,窗口长度是30,此外一维卷积层和一维反卷积层均使用relu函数进行激活,并进行均匀填充;预测网络使用的是前馈神经网络,第一层和第二层均为全连接神经网络,其中第一层的神经元个数为128,使用relu函数激活,并以0.5的概率进行dropout操作,第二层的神经元个数为2,使用softmax函数激活,对应源域数据中的两个类别;其中编码器的操作定义为:

12、;对于输入的独热矩阵 x,首先进行conv1(1维卷积),并进行均匀填充,保持时间维度大小不变,然后进行maxpool1(一维最大池化),压缩时间维度大小到原来的1/7。解码器的操作定义为:

13、;对于编码器的输出 z,首先进行upsampling(上采样),将时间维度大小恢复到压缩前,然后进行两次conv1tranpose(一维反卷积),进行均匀填充,保持时间维度大小不变,输出重构矩阵。

14、一种基于深度迁移学习的调控变异预测方法,步骤3的实现过程如下:

15、在模型的训练过程中,混合损失函数定义为:

16、;其中是重构损失,使用均方误差来衡量,是预测误差,使用交叉熵损失来衡量,为权重系数,用于衡量重构误差和预测误差所占的比例;

17、所述的均方误差定义为:

18、;其中, n表示批量数, x ij表示独热矩阵中某一位置的元素值, x′ ij表示重构矩阵中对应位置的元素值。所述的交叉熵函数定义为:

19、;其中,是第 i个样本的预测概率,是第 i个样本的标签;

20、每一轮训练时,通过adam优化器进行混合误差反向传播,并根据20%的验证集上的准确率对 k进行自适应调整,自适应调整的公式定义为:

21、;其中,为第 i轮的权重系数,为自定义更新系数,为第 i轮中验证集上的准确率,设定初始的为0.5,为0.2。 <本文档来自技高网...

【技术保护点】

1.一种基于深度迁移学习的调控变异预测方法,其特征在于,将上下文无关的非编码变异视为源域,上下文相关的功能性非编码变异视为目标域,通过迁移学习可以将源域知识迁移到目标域中,使用多任务学习方法在模型预训练时综合考虑模型特征提取能力和模型预测能力,该方法包括DNA序列预处理、模型构建、模型预训练、模型迁移、模型预测五个步骤、其具体步骤如下:

2.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,使用独热编码可以有效表示DNA序列的时空特征,DNA序列的预处理的实现过程如下:

3.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,通过卷积自编码器学习如何压缩DNA序列和重构DNA序列,同时使用编码器产生的特征向量进行预测,可以更好的训练特征提取器,模型构建的实现过程如下:

4.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,使用混合损失进行误差反向传播来更新参数,通过多任务学习方法使卷积自编码器在学习特征压缩和重构能力的同时,又考虑该特征能否实现好的预测效果,更好的进行预训练,模型预训练的实现过程如下:

5.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,在模型迁移的过程中,冻结编码器的参数,针对目标数据训练全连接层,学习上下文特定非编码变异的高级特征,模型迁移的实现过程如下:

6.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,使用训练好的模型进行预测,模型预测的实现过程如下:

...

【技术特征摘要】

1.一种基于深度迁移学习的调控变异预测方法,其特征在于,将上下文无关的非编码变异视为源域,上下文相关的功能性非编码变异视为目标域,通过迁移学习可以将源域知识迁移到目标域中,使用多任务学习方法在模型预训练时综合考虑模型特征提取能力和模型预测能力,该方法包括dna序列预处理、模型构建、模型预训练、模型迁移、模型预测五个步骤、其具体步骤如下:

2.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,使用独热编码可以有效表示dna序列的时空特征,dna序列的预处理的实现过程如下:

3.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,通过卷积自编码器学习如何压缩dna序列和重构dna序列,同时使用编码器产生的特征向量进...

【专利技术属性】
技术研发人员:李铭烈周树森王庆军臧睦君刘通柳婵娟
申请(专利权)人:鲁东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1