一种组织特异性eRNA的识别方法技术

技术编号:38970167 阅读:14 留言:0更新日期:2023-09-28 09:33
一种组织特异性eRNA的识别方法,具体涉及一种基于深度学习的组织特异性eRNA的识别方法,为解决eRNA识别方法仅依赖eRNA的序列特征进行识别,导致识别结果的准确率不高的问题。它包括获取某组织的eRNA数据集和非增强子数据集,以及此组织不同年龄样本的多种组蛋白修饰数据;提取每个eRNA和每个非增强子的序列特征,以及每个eRNA和每个非增强子在不同年龄样本下的每种组蛋白修饰特征;合并此组织中所有eRNA和非增强子在每个年龄样本下的多种组蛋白修饰特征,利用聚类和投票得到此组织的RE和AE,将RE和AE加入此组织中不同年龄样本的组蛋白修饰特征,通过深度神经网络模型识别组织特异性eRNA。属于生物信息学领域。异性eRNA。属于生物信息学领域。异性eRNA。属于生物信息学领域。

【技术实现步骤摘要】
一种组织特异性eRNA的识别方法


[0001]本专利技术涉及一种eRNA识别方法,具体涉及一种基于深度学习的组织特异性eRNA的识别方法,属于生物信息学领域。

技术介绍

[0002]基因的转录调控受到多种因素的影响,其中增强子是参与基因转录调控的重要顺式作用元件,对靶基因有增强表达的作用,增强子的功能通常与方向无关,并且与其调控的目标基因距离较远,但人类的许多癌症和疾病都与增强子的异常表达有关。近年来研究发现,许多经过功能验证的增强子能够转录生成长非编码RNA(lncRNA),称为增强子RNA(eRNA)。因此,eRNA是一类具有表达活性的增强子,也是基因表达的一种关键调控元件,能够增强其靶基因的表达量。此外,eRNA有很强的组织特异性,仅限于特定的组织或细胞和环境中表达。尤其一些关键eRNA的异常表达可能引起多种疾病,包括癌症、心血管疾病和代谢性疾病等。因此,准确识别这些eRNA对于研究其在相关疾病中的作用机制具有重要意义。
[0003]大多数识别增强子的计算学方法是提取基因组中的序列特征,应用机器学习或深度学习的方法构建增强子识别的分类模型,完成增强子的识别,然而,以上方法只基于序列特征进行增强子识别,忽视了具有转录活性的增强子通常具有很高的组织特异性,而特异性表达的增强子在特定组织中经常表现出更重要的功能性,导致单纯依赖增强子序列特征的识别方法准确率不高。

技术实现思路

[0004]本专利技术为了解决现有的组织特异性eRNA识别方法仅依赖eRNA的序列特征进行识别,导致识别结果的准确率不高的问题,进而提出了一种组织特异性eRNA的识别方法。
[0005]它包括以下步骤:
[0006]S1、获取不同组织的eRNA数据集,根据每个组织eRNA数据集中eRNA样本的数量,从现有文献中随机选择与对应组织中eRNA样本同等数量的非增强子样本,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,并获取每个组织不同年龄样本的多种组蛋白修饰数据,每个年龄样本有5种组蛋白修饰数据;
[0007]S2、对每个组织内的每个eRNA样本进行窗口划分,确定每个eRNA样本上最能表征样本序列特征的最佳窗口,提取最佳窗口内的序列特征,得到对应eRNA样本的序列特征,将上述最佳窗口作为与所述eRNA样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的序列特征,得到非增强子样本的序列特征;
[0008]S3、对每个组织内的每个eRNA样本进行窗口划分,根据S1中获取的对应组织不同年龄样本的多种组蛋白修饰数据,确定对应组织中每个eRNA样本上最能表征每个年龄样本的每种组蛋白修饰数据的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到对应eRNA样本在不同年龄样本下的多种组蛋白修饰特征,将上述最佳窗口作为与上述eRNA样本相对的非增强子样本的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到非增强子样本在不同
年龄样本下的多种组蛋白修饰特征;
[0009]S4、在某个组织中、某个时刻表达的eRNA由RE和AE构成,RE为经常表达的eRNA、AE为偶然表达的eRNA,将每个组织中所有eRNA样本和所有非增强子样本在每个年龄样本下的多种组蛋白修饰特征进行合并,得到对应组织的多组合并结果,根据每组合并结果,采用k

means方法对合并结果对应的所有eRNA样本和所有非增强子样本进行聚类,聚类结果包括候选RE、候选AE或NE两种,NE为非增强子,重复上述过程,得到多组聚类结果,利用投票的方式从多组聚类结果的候选RE中选取对应组织下的RE,并将除RE外的所有候选RE和候选AE或NE作为AE,将RE和AE作为特征分别加入对应组织在每个年龄样本下的每个eRNA样本的每套组蛋白修饰特征和每个非增强子样本的每套组蛋白修饰特征中,得到对应组织在每个年龄样本下的特征矩阵;
[0010]S5、构建多个深度神经网络模型,每个深度神经网络模型依次包括Dense层、Dropout层、Dense层、批标准化层、Concatenate层、全连接层、sigmoid层;
[0011]将某个组织中的一个eRNA样本和一个非增强子样本作为样本S
i
,根据S2得到的样本S
i
的序列特征和S4得到的样本S
i
在每个年龄样本下的特征矩阵,将序列特征和某个特征矩阵输入某个深度神经网络模型进行训练,输出样本S
i
是否为组织特异性eRNA,直至满足迭代次数上限或loss损失不变,得到训练好的某个深度神经网络模型,按照上述训练方法对所有深度神经网络模型进行训练,得到每个年龄样本下训练好的深度神经网络模型,根据每个深度神经网络模型输出结果的准确率,选择准确率最高的深度神经网络模型作为最终的深度神经网络模型,则此深度神经网络模型输入的特征矩阵对应的年龄样本下的组蛋白修饰特征就是当前组织最优年龄样本下的组蛋白修饰特征;
[0012]S6、获取人类基因组内待测的DNA序列,并确定待测组织,提取所述DNA序列的序列特征和待测组织不同年龄样本下的多种组蛋白修饰特征,根据不同年龄样本下的多种组蛋白修饰特征,通过S4得到待测DNA序列的RE和AE,并将RE和AE作为特征加入S5中得到对应组织最优年龄样本下的组蛋白修饰特征中,得到待测DNA序列在最优年龄样本下的特征矩阵,将特征矩阵和序列特征作为数据样本,将数据样本输入S5得到的最终的深度神经网络模型内,输出DNA序列是否为组织特异性eRNA。
[0013]进一步地,S1具体过程为:
[0014]从HeRA数据库和eRic数据库中获取胃、肺、肝、胰腺、肝癌、肺腺癌、前列腺癌和胰腺癌八种组织的eRNA样本,将每个组织的所有eRNA样本作为对应组织的eRNA数据集,每个组织中包含多条eRNA样本,所有组织中的eRNA样本长度都一样,不同组织的eRNA样本总数量是不同的,集合获取的所有eRNA样本作为正例集;
[0015]根据每个组织中eRNA样本的数量,从现有文献中随机选择与对应组织中eRNA样本同等数量的非增强子样本,并将每个非增强子扩展为与eRNA等长,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,将所有非增强子数据集作为反例集;
[0016]从ENCODE数据库中下载每个组织中不同年龄样本的5种组蛋白修饰数据,5种组蛋白修饰数据包括H3K4me1、H3K4me3、H3K9me3、H3K27ac和H3K36me3,即:
[0017]胃组织包括五个年龄样本:34years胃组织样本、37years胃组织样本、51years胃组织样本、53years胃组织样本、54years岁胃组织样本,从ENCODE数据库中下载每个年龄样本对应的5种组蛋白修饰数据;
[0018]肺组织包括五个年龄样本:3years肺组织样本、37years肺组织样本、51years肺组织样本、54years肺组织样本、59years岁肺组织样本,从ENCODE数据库中下载每个年龄样本对应的5种组蛋白修饰本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种组织特异性eRNA的识别方法,其特征在于:它包括以下步骤:S1、获取不同组织的eRNA数据集,根据每个组织eRNA数据集中eRNA样本的数量,从现有文献中随机选择与对应组织中eRNA样本同等数量的非增强子样本,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,并获取每个组织不同年龄样本的多种组蛋白修饰数据,每个年龄样本有5种组蛋白修饰数据;S2、对每个组织内的每个eRNA样本进行窗口划分,确定每个eRNA样本上最能表征样本序列特征的最佳窗口,提取最佳窗口内的序列特征,得到对应eRNA样本的序列特征,将上述最佳窗口作为与所述eRNA样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的序列特征,得到非增强子样本的序列特征;S3、对每个组织内的每个eRNA样本进行窗口划分,根据S1中获取的对应组织不同年龄样本的多种组蛋白修饰数据,确定对应组织中每个eRNA样本上最能表征每个年龄样本的每种组蛋白修饰数据的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到对应eRNA样本在不同年龄样本下的多种组蛋白修饰特征,将上述最佳窗口作为与上述eRNA样本相对的非增强子样本的最佳窗口,提取最佳窗口内的组蛋白修饰特征,得到非增强子样本在不同年龄样本下的多种组蛋白修饰特征;S4、在某个组织中、某个时刻表达的eRNA由RE和AE构成,RE为经常表达的eRNA、AE为偶然表达的eRNA,将每个组织中所有eRNA样本和所有非增强子样本在每个年龄样本下的多种组蛋白修饰特征进行合并,得到对应组织的多组合并结果,根据每组合并结果,采用k

means方法对合并结果对应的所有eRNA样本和所有非增强子样本进行聚类,聚类结果包括候选RE、候选AE或NE两种,NE为非增强子,重复上述过程,得到多组聚类结果,利用投票的方式从多组聚类结果的候选RE中选取对应组织下的RE,并将除RE外的所有候选RE和候选AE或NE作为AE,将RE和AE作为特征分别加入对应组织在每个年龄样本下的每个eRNA样本的每套组蛋白修饰特征和每个非增强子样本的每套组蛋白修饰特征中,得到对应组织在每个年龄样本下的特征矩阵;S5、构建多个深度神经网络模型,每个深度神经网络模型依次包括Dense层、Dropout层、Dense层、批标准化层、Concatenate层、全连接层、sigmoid层;将某个组织中的一个eRNA样本和一个非增强子样本作为样本S
i
,根据S2得到的样本S
i
的序列特征和S4得到的样本S
i
在每个年龄样本下的特征矩阵,将序列特征和某个特征矩阵输入某个深度神经网络模型进行训练,输出样本S
i
是否为组织特异性eRNA,直至满足迭代次数上限或loss损失不变,得到训练好的某个深度神经网络模型,按照上述训练方法对所有深度神经网络模型进行训练,得到每个年龄样本下训练好的深度神经网络模型,根据每个深度神经网络模型输出结果的准确率,选择准确率最高的深度神经网络模型作为最终的深度神经网络模型,则此深度神经网络模型输入的特征矩阵对应的年龄样本下的组蛋白修饰特征就是当前组织最优年龄样本下的组蛋白修饰特征;S6、获取人类基因组内待测的DNA序列,并确定待测组织,提取所述DNA序列的序列特征和待测组织不同年龄样本下的多种组蛋白修饰特征,根据不同年龄样本下的多种组蛋白修饰特征,通过S4得到待测DNA序列的RE和AE,并将RE和AE作为特征加入S5中得到对应组织最优年龄样本下的组蛋白修饰特征中,得到待测DNA序列在最优年龄样本下的特征矩阵,将特征矩阵和序列特征作为数据样本,将数据样本输入S5得到的最终的深度神经网络模型内,
输出DNA序列是否为组织特异性eRNA。2.根据权利要求1所述的一种组织特异性eRNA的识别方法,其特征在于:S1具体过程为:从HeRA数据库和eRic数据库中获取胃、肺、肝、胰腺、肝癌、肺腺癌、前列腺癌和胰腺癌八种组织的eRNA样本,将每个组织的所有eRNA样本作为对应组织的eRNA数据集,每个组织中包含多条eRNA样本,所有组织中的eRNA样本长度都一样,不同组织的eRNA样本总数量是不同的,集合获取的所有eRNA样本作为正例集;根据每个组织中eRNA样本的数量,从现有文献中随机选择与对应组织中eRNA样本同等数量的非增强子样本,并将每个非增强子扩展为与eRNA等长,将每个组织的所有非增强子样本作为对应组织的非增强子数据集,将所有非增强子数据集作为反例集;从ENCODE数据库中下载每个组织中不同年龄样本的5种组蛋白修饰数据,5种组蛋白修饰数据包括H3K4me1、H3K4me3、H3K9me3、H3K27ac和H3K36me3,即:胃组织包括五个年龄样本:34years胃组织样本、37years胃组织样本、51years胃组织样本、53years胃组织样本、54years岁胃组织样本,从ENCODE数据库中下载每个年龄样本对应的5种组蛋白修饰数据;肺组织包括五个年龄样本:3years肺组织样本、37years肺组织样本、51years肺组织样本、54years肺组织样本、59years岁肺组织样本,从ENCODE数据库中下载每个年龄样本对应的5种组蛋白修饰数据;肝组织包括三个年龄样本:16years肝组织样本、25years肝组织样本、31years肝组织样本,从ENCODE数据库中下载每个年龄样本对应的5种组蛋白修饰数据;胰腺组织包括三个年龄样本:30years胰腺组织样本、34years胰腺组织样本、59years胰腺组织样本,从ENCODE数据库中下载每个年龄样本对应的5种组蛋白修饰数据;肝癌、肺腺癌、前列腺癌和胰腺癌均仅有一个样本,分别为HeG2肝癌样本、PC

9肺腺癌样本、PC

3前列腺癌样本、Pan1胰腺癌样本,从ENCODE数据库中下载每个样本对应的5种组蛋白修饰数据。3.根据权利要求2所述的一种组织特异性eRNA的识别方法,其特征在于:S2具体过程为:S21、在每个组织内,确定划分每个eRNA样本的窗口大小,将划分每个eRNA样本的窗口大小作为划分对应非增强子样本的窗口大小;S22、根据窗口大小划分每个eRNA样本和对应的非增强子样本;S23、在每个eRNA样本上,通过Bert+Bi

LSTM模型选择最能表征样本序列特征的最佳窗口,提取最佳窗口内的序列特征,得到对应eRNA样本的序列特征,将上述最佳窗口作为与所述eRNA样本相对的非增强子样本的最佳窗口,并提取最佳窗口内的序列特征,得到非增强子样本的序列特征,Bert+Bi

LSTM模型依次包括Bert模型和Bi

LSTM神经网络。4.根据权利要求3所述的一种组织特异性eRNA的识别方法,其特征在于:S21具体过程为:每个eRNA样本的原始增强子注释来源于FANTOM数据库、ENCODE和Roadmap Epigenomics Project数据库,FANTOM数据库中增强子的平均长度为L
F
,因此,以L
F
作为确定划分每个eRNA样本和对应非增强子样本的窗口大小。
5.根据权利要求4所述的一种组织特异性eRNA的识别方法,其特征在于:S22具体过程为:以每个eRNA样本中间碱基的区域作为第一个窗口W
i
,再分别向第一个窗口W
i
的上游和下游依次取L
F
bp,得到窗口W
i
‑1和窗口W
i+1
,直至将每...

【专利技术属性】
技术研发人员:章天骄李良雨汪国华
申请(专利权)人:东北林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1