当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于双向门控循环神经网络的沉默子预测算法制造技术

技术编号:34439680 阅读:66 留言:0更新日期:2022-08-06 16:27
本发明专利技术公开了一种基于双向门控循环神经网络的沉默子预测算法,其中算法包括以下步骤:S1,收集数据集;S2,基于步骤1中收集的所述数据集进行双向门控循环神经网络模型的构建;S3,对步骤2中构建的模型进行训练并验证;S4,根据步骤3中训练好的所述模型进行沉默子概率的预测。本发明专利技术对训练集数据采用多次训练,构建出最优的模型对沉默子预测与分类,为后续沉默子的预测发展做出了贡献。默子的预测发展做出了贡献。默子的预测发展做出了贡献。

【技术实现步骤摘要】
一种基于双向门控循环神经网络的沉默子预测算法


[0001]本专利技术涉及生物信息计算领域,特别涉及一种基于双向门控循环神经网络的沉默子预测算法。

技术介绍

[0002]在生物信息学中,沉默子是一段非编码区的DNA序列,与增强子对DNA转录的加强作用相反,沉默子则会抑制基因的表达过程。DNA上基因序列是信使RNA合成的模板,信使RNA最终会被翻译成蛋白质。而当沉默子存在时,阻遏蛋白与沉默子序列结合,会阻碍RNA聚合酶转录DNA序列,从而阻碍RNA翻译为蛋白质的过程。沉默子作用在于阻碍基因的表达。比如:10号染色体上药物转运基因ABCC2和ABCG2相关的沉默区的缺失使转运药物的通道关闭导致了化疗耐药性。现有的沉默子机器学习预测模型gkm

SVM是使用MPRA分析后的数据进行训练得到的。在随着生物信息技术的发展,研究沉默子对基因的表达的影响也越来越凸显重要性。数据样本量的逐渐增加,机器学习方法的泛化能力比较低。因此为了解决这种技术问题,亟需提出一种新的技术手段。

技术实现思路

[0003]为了解决现有问题,本专利本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双向门控循环神经网络的沉默子预测算法,其特征在于,包括以下步骤:S1,收集数据集;S2,基于步骤1中收集的所述数据集进行双向门控循环神经网络模型的构建;S3,对步骤2中构建的模型进行训练并验证;S4,根据步骤3中训练好的所述模型进行沉默子概率的预测。2.根据权利要求1所述的算法,其特征在于,所述步骤1中收集数据集的步骤包括:SA1,从已知数据库中下载沉默子序列并收集已有的机器学习模型的数据集;SA2,对步骤A1中下载的沉默子序列中的正样本使用组间打乱的方法并去重得到对应的负样本。3.根据权利要求2所述的算法,其特征在于,步骤A2中所述负样本的构建使用的所述组间打乱的方法的步骤包括:SA21,将正样本分割为多个片段,切割步长为1,且每个片段的长度为k,若正样本的序列长度不能被k整除,最后一个片段的长度为该正样本的序列长度除以k的余数;SA22,对步骤A21中每一条正样本产生的片段进行排列组合,得到一个新的序列。4.根据权利要求1所述的算法,其特征在于,步骤2中构建所述双向门控循环神经网络模型的步骤包括:SB1,对步骤1中收集到的数据集中的数据进行预处理;SB2,将含有特征提取功能的卷积神经网络CNN以及双向门控循环单元BiGRU作为特征提取器,实现对目标数据集的特征提取;具体来说,先使用CNN对数据进行卷积操作,其中卷积层采用并联的方式,卷积核的大小依次增大,再将卷积后的数据输入到双向门控循环单元BiGRU并得到输出,最终得到序列的特征信息;SB3,采用多头自注意力机制进行信息捕捉,其中多头表示多个不同的表征子空间,根据head
i
=Attention(QW
iQ
,KW
ik
,VW
iv
),其中w是三个不同的权值训练矩阵,Q、K、V是初始...

【专利技术属性】
技术研发人员:郑春厚江林杰魏丕静苏延森夏俊峰
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1