一种转录因子靶基因关系预测方法、系统、设备和介质技术方案

技术编号:37791701 阅读:23 留言:0更新日期:2023-06-09 09:21
本发明专利技术提供一种转录因子靶基因关系预测方法、系统、设备和介质,方法包括:获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列并编码,得到编码序列;获取待预测物种的蛋白质和遗传相互作用网络数据及转录因子靶基因相互作用网络数据;基于编码序列、蛋白质和遗传相互作用网络数据以及转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;采用训练后的图神经网络模型预测待预测物种未知的转录因子靶基因相互作用关系。本发明专利技术可以避免基因表达数据缺失值多以及结合位点预测不准确的问题;同时,可以根据已有基因调控网络的拓扑结构实现大规模的转录因子

【技术实现步骤摘要】
一种转录因子靶基因关系预测方法、系统、设备和介质


[0001]本专利技术涉及生物信息学
,具体涉及一种基于图神经网络的转录因子靶基因关系预测方法、系统、设备和介质。

技术介绍

[0002]在生命过程中,生物体通过基因表达将遗传信息进行转录和翻译,从而表现出相应的性状。基因的表达过程受到转录因子的调控。基因调控是一个复杂的生物过程,在不同的时间和空间条件下,单个转录因子可以激活或抑制大量下游靶基因的转录,而一个靶基因又可以受到不同转录因子的调控。转录因子的靶基因研究对理解生物体分子机制、生命系统的发育过程和疾病诊断治疗具有重要意义。在基因组学的研究中,有许多实验方法和计算方法可以预测受转录因子调控的靶基因,但目前的方法受制于数据可用性、大规模数据缺乏、基因数目庞大等问题,因而需要新的数据和方法实现靶基因预测。
[0003]现有的预测转录因子靶基因关系的计算方法主要分为根据基因表达水平推测的方法和间接预测转录因子结合位点的方法。转录因子可以调控靶基因表达的上升和下调,使经过转录、翻译产生的蛋白质增多或减少,因而可以利用转录因子与靶基因表达水平的相关性来预测调控关系。基因表达数据可以划分为稳态基因表达数据和时间序列基因表达数据。利用稳态基因表达数据预测转录因子调控的靶基因广泛采用基于信息论的方法、基于贝叶斯建模的方法和基于布尔网络的方法。基于线性或非线性常微分方程和基于机器学习的方法可以利用时间序列基因表达数据预测受转录因子调控的靶基因。转录因子靶基因关系的预测可以间接通过其在基因组上的物理结合位置来推测,现有的预测转录因子结合位点的方法主要有机器学习和深度学习方法。
[0004]文献Reconstruction of gene regulatory networks from gene expression data using decoupled recurrent neural network model公开了基于循环神经网络模型从基因表达数据中推断基因调控网络,其使用差异进化算法推断每个基因的调控因子,并使用实验验证分析了真实的基因表达谱。在基于表达水平预测的方法中,最大的挑战就是表达数据中存在大量的缺失值,这会导致丢失信息过多,从而极大地降低了预测调控关系的准确度。文献Using Bayesian networks to construct gene regulatory networks from microarray data根据贝叶斯网络具有处理缺失值的能力,提出了从酿酒酵母和大肠杆菌基因表达数据集构建基因调控关系网络的贝叶斯模型。微分方程可用来对时序基因表达数据建模预测转录因子可能调控的靶基因,随机微分方程可以模拟不规则布朗运动引起的动态扩散过程,文献A stochastic differential equation model for quantifying transcriptional regulatory network in Saccharomyces cerevisiae基于随机微分方程实现了酿酒酵母转录调控网络的推断,该方法使用一组假定的调节因子来拟合广义线性模型,从而估计特定靶基因与调控因子的结合模型。
[0005]除了基因表达数据,还可以利用跨细胞类型的组蛋白修饰和染色质可访问性数据之间的相关性来检测结合位点和靶基因之间调控关系。在间接预测转录因子结合位点的方
法中,文献predicting transcription factor regulators and gene regulatory networks in Arabidopsis using publicly available binding site information利用公开的转录因子结合位点信息预测一组共表达或功能相关基因的潜在调控因子,该方法定义了三种与基因翻译起始位点和终止位点相关的基因区域类型,利用概率质量函数和超几何分布计算在这些区域寻找可能的结合位点,根据预测结果重建了拟南芥的基因调控网络。
[0006]基于基因表达量预测方法主要的缺点之一就是表达数据比较稀疏,缺失值较多,需要结合一些插补缺失值的方法提高预测准确率;而基于转录因子结合位点的方法间接利用结合位点的信息,由于转录因子结合位点在基因组上分布广泛,不同的转录因子结合位置一般不同,一些转录因子倾向结合距靶基因转录起始点较近的启动子区域,另外有一些转录因子可能会结合距转录起始位点较远的增强子区域,所以利用间接预测转录起始位点来推断转录因子的调控关系可能会出现很多的假阳性,无法做出准确的预测。对于目前已有的数学模型和机器学习模型,随着转录因子靶基因关系数量增多,模型的复杂度会呈指数级增长,难以完成全基因组的调控关系预测任务。

技术实现思路

[0007]为了解决上述现有技术的问题,本专利技术提供一种转录因子靶基因关系预测方法、系统、设备和介质,本专利技术采用基因序列数据和已知的遗传和蛋白质相互作用网络数据,可以避免基因表达数据缺失值多,以及结合位点预测不准确的问题;利用图神经网络方法解决生物网络中的链路预测问题,可以很好地实现大规模的转录因子靶基因关系预测。
[0008]专利技术通过以下技术方案实现:
[0009]一种转录因子靶基因关系预测方法,包括:
[0010]S1,获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列,并对编码转录因子的DNA序列和靶基因的DNA序列进行编码,得到编码序列;其中,所述转录因子和靶基因的相互作用关系已知;
[0011]S2,获取待预测物种的蛋白质和遗传相互作用网络数据;其中,所述蛋白质和遗传相互作用网络数据与S1中的转录因子和靶基因相对应;
[0012]S3,获取待预测物种的转录因子靶基因相互作用网络数据,其中,所述转录因子靶基因相互作用网络数据是S1中所述转录因子和靶基因的相互作用网络数据;
[0013]S4,基于S1获取的编码序列、S2获取的蛋白质和遗传相互作用网络数据以及S3获取的转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;
[0014]S5,采用训练后的图神经网络模型预测待预测物种未知的转录因子靶基因相互作用关系。
[0015]优选的,S1中,从NCBI数据库中获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列。
[0016]优选的,S1中,采用k

mers编码方式对编码转录因子的DNA序列和靶基因的DNA序列进行编码。
[0017]优选的,S2中,从BioGRID数据库中获取待预测物种的蛋白质和遗传相互作用网络
数据。
[0018]优选的,S4具体为:
[0019]基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的特征,进行特征融合,所得融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种转录因子靶基因关系预测方法,其特征在于,包括:S1,获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列,并对编码转录因子的DNA序列和靶基因的DNA序列进行编码,得到编码序列;其中,所述转录因子和靶基因的相互作用关系已知;S2,获取待预测物种的蛋白质和遗传相互作用网络数据;其中,所述蛋白质和遗传相互作用网络数据与S1中的转录因子和靶基因相对应;S3,获取待预测物种的转录因子靶基因相互作用网络数据,其中,所述转录因子靶基因相互作用网络数据是S1中所述转录因子和靶基因的相互作用网络数据;S4,基于S1获取的编码序列、S2获取的蛋白质和遗传相互作用网络数据以及S3获取的转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;S5,采用训练后的图神经网络模型预测待预测物种未知的转录因子靶基因相互作用关系。2.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S1中,从NCBI数据库中获取待预测物种编码转录因子的DNA序列和靶基因的DNA序列;S2中,从BioGRID数据库中获取待预测物种的蛋白质和遗传相互作用网络数据。3.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S1中,采用k

mers编码方式对编码转录因子的DNA序列和靶基因的DNA序列进行编码。4.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S4具体为:基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的特征,进行特征融合,所得融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络模型;对图神经网络模型进行模型训练。5.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S4中,所述图神经网络模型为基于个性化PageRank的图神经网络模型。6.根据权利要求1所述的转录因子靶基因关系预测方法,其特征在于,S5具体为:S51,获取待预测物种编码转录因子的DNA序列和候选靶基因的DNA序列,并对编码...

【专利技术属性】
技术研发人员:马珂郭菲唐继军
申请(专利权)人:深圳理工大学筹
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1