当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于双路径并行集成决策的DHSs识别预测方法技术

技术编号:37330866 阅读:12 留言:0更新日期:2023-04-21 23:08
本发明专利技术公开一种基于双路径并行集成决策的DHSs识别预测方法,包括步骤一、数据集处理获得训练集和测试集,步骤二、建立iDHS

【技术实现步骤摘要】
一种基于双路径并行集成决策的DHSs识别预测方法


[0001]本专利技术涉及位点预测
,尤其涉及一种基于双路径并行集成决策的DHSs识别预测方法。

技术介绍

[0002]遗传学中,对DNase I核酸内切酶的切割过敏的特定染色质区域被称为DNase I超敏位点(DHSs),DHSs能够提供哺乳动物中转录调控元件和染色质状态的重要信息,多年来,DHSs为确定启动子、增强子、抑制子和基因组控制区等转录调控元件的精确位置担任了可靠的路标;此外,全基因组关联研究(GWAS)确定了许多与癌症、心血管疾病等疾病和性状相关的非编码变体。而这些变体集中在DHSs标记的调节DNA中,因此,准确识别DHSs有助于进一步探究基因的调控与常见疾病的致病机制;
[0003]DNase I超敏位点(DHS)是对DNase I酶的切割表现出超敏反应的染色质区域,它是调节DNA的通用标记,并且与多种疾病和表型性状的遗传变异相关,然而,常规的实验方法识别DHSs耗时且昂贵,而在小鼠不同发育阶段的基因上的DHSs是动态变化的,不同组织的序列也有很大的差异性,单一模型往往难以实现对多类型数据的准确识别,因此,本专利技术提出一种基于双路径并行集成决策的DHSs识别预测方法以解决现有技术中存在的问题。

技术实现思路

[0004]针对上述问题,本专利技术的目的在于提出一种基于双路径并行集成决策的DHSs识别预测方法,该基于双路径并行集成决策的DHSs识别预测方法通过BiGRU

Attention模型和MSFRN模型的双模型训练的方式可以捕获到不同层次的重要信息,减少信息丢失,构成的双路径iDHS

DPPE模型识别预测,能够有效提升泛化能力和鲁棒性,可以适应小鼠不同组织和发育阶段DHS的变化,同时能够有效、准确的识别DHSs。
[0005]为实现本专利技术的目的,本专利技术通过以下技术方案实现:一种基于双路径并行集成决策的DHSs识别预测方法,包括以下步骤:
[0006]步骤一、数据集处理,获取iDHS

Deep基准数据集中小鼠基因组的DHS序列,再利用CD

HIT对其进行处理后划分获得训练集和测试集;
[0007]步骤二、模型建立,建立包含特征提取模块、双路径集成模块和输出模块的iDHS

DPPE模型,其中双路径集成模块包含BiGRU

Attention模型和MSFRN模型;
[0008]步骤三、训练集和测试集统一化处理,将训练集和测试集中的序列长度进行扩充处理,获得统一长度的序列并按照滑动窗口拆分为2

mers,获得扩增后的训练集和测试集;
[0009]步骤四、特征提取,将扩增后的训练集序列特征作为输入经过iDHS

DPPE模型的特征提取模块进行特征提取,获得提取特征;
[0010]步骤五、双路径并行训练,将获得的提取特征作为输入分别导入包含BiGRU

Attention模型和MSFRN模型的双路径集成模块中进行训练,并结合特征提取模块和输出模块获得训练后的iDHS

DPPE模型;
[0011]步骤六、模型测试,将扩增后的测试集同样经过步骤四的特征提取处理,并将获得的提取特征输入训练后的iDHS

DPPE模型进行模型测试,获得测试后的iDHS

DPPE模型;
[0012]步骤七、模型识别预测,将待测数据经过步骤三和步骤四的处理后输入测试后的iDHS

DPPE模型,并由其输出识别预测结果。
[0013]进一步改进在于:所述步骤一中获取的小鼠基因组的DHS序列包含小鼠不同组织和发育阶段的DHS综合图谱,选择50~301bp长度的DHS序列作为阳性样本,选择特定的DNA片段作为阴性样本,然后利用CD

HIT消除相似度阈值为0.8的序列,最后将不同细胞类型和发育阶段的样本中70%作为训练集,30%作为独立的测试集。
[0014]进一步改进在于:所述步骤二中特征提取模块包含嵌入层、卷积层和池化层,所述输出模块将双路径集成模块输出的决策集成得到综合评估的结果输出并进行DHSs的识别。
[0015]进一步改进在于:所述步骤二中BiGRU

Attention模型包含BiGRU和多头注意力层,利用BiGRU捕获远程依赖,利用多头注意力层选择关键特征信息,所述MSFRN模型包含进行级联的六个卷积核为64的不同尺度的卷积层以及一个卷积核为192的卷积层进行特征的残差连接融合。
[0016]进一步改进在于:所述步骤三中扩充处理具体为当序列长度不足301bp时,在序列尾部添加“N”,将长度不足的序列统一扩充至最大长度301bp,然后进行拆分获得2

mers,然后再将不同的核苷酸映射为0~20内范围不同的值,则扩充序列被编码为长度300的数字向量,作为特征提取模块的输入。
[0017]进一步改进在于:所述步骤五中模型训练的输出利用G值来衡量置信度,G值的计算公式如下
[0018]G=abs(2cp

1),cp∈[0,1][0019]其中cp为置信概率,则当置信概率cp越高,G至越大,则判定模型的判断可靠,当cp≥0.5时,模型判断输入序列为DHSs,相反则输入序列不是DHSs。
[0020]本专利技术的有益效果为:本专利技术通过BiGRU

Attention模型和MSFRN模型的双模型训练的方式可以捕获到不同层次的重要信息,减少信息丢失,构成的双路径iDHS

DPPE模型识别预测,能够有效提升泛化能力和鲁棒性,可以适应小鼠不同组织和发育阶段DHS的变化,同时能够有效、准确的识别DHSs,为DHSs识别提供了一种高效可靠的方法。
附图说明
[0021]图1为本专利技术实施例1方法流程图。
[0022]图2为本专利技术实施例1中iDHS

DPPE模型总体架构图。
[0023]图3为本专利技术实施例1中BiGRU

Attention模型架构图。
[0024]图4为本专利技术实施例1中MSFRN模型架构图。
[0025]图5为本专利技术实施例2不同特征编码方式的性能比较折线图。
[0026]图6为本专利技术实施例2与不同机器学习分类器的性能比较结果图。
[0027]图7为本专利技术实施例2多种神经网络的比较结果图。
[0028]图8为本专利技术实施例2与现有多种方法的比较结果图。
具体实施方式
[0029]为了加深对本专利技术的理解,下面将结合实施例对本专利技术做进一步详述,本实施例仅用于解释本专利技术,并不构成对本专利技术保护范围的限定。
[0030]实施例1
[0031]根据图1

图4所示,本实施例提供了一种基于双本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双路径并行集成决策的DHSs识别预测方法,其特征在于,包括以下步骤:步骤一、数据集处理,获取iDHS

Deep基准数据集中小鼠基因组的DHS序列,再利用CD

HIT对其进行处理后划分获得训练集和测试集;步骤二、模型建立,建立包含特征提取模块、双路径集成模块和输出模块的iDHS

DPPE模型,其中双路径集成模块包含BiGRU

Attention模型和MSFRN模型;步骤三、训练集和测试集统一化处理,将训练集和测试集中的序列长度进行扩充处理,获得统一长度的序列并按照滑动窗口拆分为2

mers,获得扩增后的训练集和测试集;步骤四、特征提取,将扩增后的训练集序列特征作为输入经过iDHS

DPPE模型的特征提取模块进行特征提取,获得提取特征;步骤五、双路径并行训练,将获得的提取特征作为输入分别导入包含BiGRU

Attention模型和MSFRN模型的双路径集成模块中进行训练,并结合特征提取模块和输出模块获得训练后的iDHS

DPPE模型;步骤六、模型测试,将扩增后的测试集同样经过步骤四的特征提取处理,并将获得的提取特征输入训练后的iDHS

DPPE模型进行模型测试,获得测试后的iDHS

DPPE模型;步骤七、模型识别预测,将待测数据经过步骤三和步骤四的处理后输入测试后的iDHS

DPPE模型,并由其输出识别预测结果。2.根据权利要求1所述的一种基于双路径并行集成决策的DHSs识别预测方法,其特征在于:所述步骤一中获取的小鼠基因组的DHS序列包含小鼠不同组织和发育阶段的DHS综...

【专利技术属性】
技术研发人员:吕学平
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1