一种基于多层异构图的miRNA靶标预测方法及系统和应用技术方案

技术编号:38616980 阅读:12 留言:0更新日期:2023-08-26 23:44
本发明专利技术涉及一种基于多层异构图的miRNA靶标预测方法及系统和应用,首先在节点表征上,本方案将节点表示做了解耦,分为边嵌入和基础嵌入,每个图层单独维护所有节点在该图层上的边嵌入。第二在图传播上,因为浅层GCN不能大范围的传播特征,而深层GCN容易导致过平滑,因此我们选用了抽样平均聚合来解决这个问题,从节点邻域中抽取固定的k个节点嵌入做平均来表征中心节点。第三在注意力机制上,本方案在前人的基础上略作创新,对于多头注意力机制不是简单的将向量拼接,而是采用了池化层和全连接层,整体实现上更加符合逻辑,实验时参数调整更为简单。更为简单。更为简单。

【技术实现步骤摘要】
一种基于多层异构图的miRNA靶标预测方法及系统和应用


[0001]本专利技术属于计算机应用技术,涉及一种利用计算机进行生物信息识别,具体涉及一种基于多层异构图的miRNA靶标预测方法及系统和应用。

技术介绍

[0002]非编码RNA(non

coding RNA,ncRNA)是指在细胞中没有翻译成蛋白质的RNA分子,它们在细胞中扮演着多种生物学功能,例如基因表达调控、转录后修饰、组蛋白修饰、RNA剪接、RNA降解等等。ncRNA的两大类包括小RNA(siRNA、miRNA等)和非小RNA(lncRNA、circRNA等),这两类RNA的失调与包含癌症在内的疾病息息相关,在细胞的调控中扮演重要角色,具有很高的临床和科学相关性,将会对未来的医学和疾病治疗有重要的影响。
[0003]其中,miRNA(microRNA)是最为广泛研究的非编码RNA之一。miRNA是一种长度约为20~25个核苷酸的小分子RNA,其广泛存在于真核生物的细胞中,主要通过与靶基因的互补结合,参与到转录后水平的基因表达调控中。miRNA是由细胞内的一系列酶以及蛋白质复合物协同作用合成的,其生物合成过程包括miRNA基因转录、pri

miRNA的剪切、pre

miRNA的释放和成熟的miRNA的结合等步骤。miRNA在细胞中的作用机制十分复杂,它们可以通过两种方式来调控靶基因的表达:一种是通过与mRNA的3'非翻译区(3'untranslated region,UTR)结合并抑制靶基因mRNA的翻译过程,另一种则是通过与mRNA的编码区域(coding region,CDS)结合并诱导靶基因mRNA的降解。miRNA对于生物体内多种生物学过程的调控具有十分重要的作用,包括细胞增殖、分化、凋亡、细胞周期等等。因此,miRNA已经成为细胞分子生物学、疾病发病机制以及新型药物研发等方面的热门研究领域之一。
[0004]ncRNA和mRNA都可作为miRNA靶标。首先,它们通常位于细胞中,并参与信号传导、细胞活性和调节细胞状态等重要生物过程。此外,它们具有高度保守的结构特征,这使得miRNA更容易识别结合这些ncRNA和mRNA作为它们的靶标。最后,这些ncRNA和mRNA的表达水平会受到miRNA的调节,这种因果关系可以用来提供进一步的信息。这种调控关系共同打造了围绕miRNA的辅助调控网络。
[0005]miRNA调控网络是一种复杂的、自我调节的生物信号传导系统,可以用于调节和协调细胞的基因表达。它通过发出一系列消息来调节蛋白的合成和细胞的活动。miRNA调控网络包括各种miRNA与靶标间的复杂相互作用,可以控制基因表达水平、促进转录水平变化、导致细胞表型调控以及信号传导途径的异常。在这种复杂的调控体系中,miRNA可以影响宿主基因的合成或抑制,也可以影响其他miRNA以及mRNA的表达。
[0006]miRNA靶标预测方法目前主要是基于机器学习或者统计以及生物信息技术的一种基于数据挖掘的方法,用于分析miRNA与mRNA,以及其他非编码RNA之间的相互作用。这种方法使用机器学习技术,基于对miRNA和靶标序列及表达水平的多种信息,提取出特征特性,如深度学习、聚类分析、支持向量机等,来识别特征,并通过多元统计分析预测miRNA的靶标。在此基础上,可以使用不同的AI模型和数据挖掘技术来开发更强大的miRNA靶标预测模型,以预测miRNA

mRNA相互作用的复杂结构。这样的模型可以帮助生物学家更好地理解
miRNA

mRNA相互作用,并有助于研究miRNA对细胞信号传导和表观遗传学调节的作用。
[0007]按照数据类型,可以将miRNA

lncRNA靶标识别算法划分为三类,分别是基于序列的,基于表达数据的,以及基于图的。2018年,Zhang等人主要基于序列特征提出了一种序列推导的线性域传播方法(SLNPM),利用线性域相似度方法计算lncRNA、miRNA相似度,并分别构建了lncRNA相似网络、miRNA相似网络。在网络上实现标签传播过程,对lncRNA

miRNA对进行评分。2018年huang基于现有许多证据表明,lncRNA

miRNA的相互作用与它们的相对表达水平密切相关。除了表达谱,他们进一步利用lncRNA

function以及miRNA

mRNA以及miRNA、lncRNA的序列数据,采用PCC和Needleman

Wunsch pairwise sequence alignment分别计算出miRNA、lncRNA的相似矩阵,提出了基于二部图的简单模型EPLMI。同年,huang还基于同样假设与数据,融合贝叶斯协同过滤算法提出了GBCF模型。Zhang主要基于序列数据提出了线性邻域传播算法SLNPM。但这些算法实际上都没有使用图神经网络,huang在2019年提出了基于图卷积和自编码器的端到端的预测模型GCLMI。不需要再进行数据预处理,并且进行了负采样的影响实验。Zhang在同年实验了基于五种图表示学习算法的集成模型,也取得了不错的效果。2019年You整合了多种与RNA相关的信息源来构建一个异构网络模型LMNLMI。首先针对lncRNA、miRNA分别做了异构网络融合,得到一个新的相似网络。然后,LMNLMI从lncRNA特征空间中找到最佳的投影到miRNA空间上,使得lncRNA的投影特征向量与已知相互作用miRNA的特征向量距离相近。在那之后,LMNLMI会根据该lncRNA在投影空间中与投影特征向量的几何接近度推断出新的交互作用,对其候选目标进行排序。最后,LMNLMI还与常用在推荐系统中的协同过滤算法进行了比较。2020年Fan基于序列和链接数据构建了异构图模型SNFHGILMI,假定miRNA、lncRNA符合高斯分布,运用KL散度计算出高阶特征,再与通过序列计算得出的相似网络进行非线形融合,最后采用异构图推理算法进行预测。H.Liu基于逻辑矩阵分解算法提出模型LMFNRLMI,采用了邻域正则化来优化矩阵分解算法。
[0008]而miRNA

mRNA也可按照类似准则进行划分。2020年Jiang基于矩阵补全算法提出了基于异构网络的预测算法miRTMC。通过Needleman

Wunsh global alignment algorithm计算miRNA基于种子区域的相似矩阵,同时通过Smith

Waterman local alignment algorithm计算基于与3
‘‑
UTR互补的mRNA的相似矩阵,利用经过生物实验验证的链接数据来融合两个矩阵,将miRNA

target预测问题转化成低维矩阵补全的问题。Wang基于样本中不同类型的RNA是以不同的效率随机接触和结合的自由运动粒子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层异构图的miRNA靶标预测方法,其特征在于步骤如下:步骤1:构建由七种RNA网络组成的异质图,其中节点代表三种RNA中的一种:miRNA、lncRNA和mRNA,七种RNA网络反映了七种不同的边类型;所述七种边类型为:

miRNA

lncRNA相互作用层代表已知的经验证的LMI,

miRNA

miRNA序列相似性层测量miRNA之间的序列相似性,

miRNA

miRNA共表达层测量miRNA之间的共表达关系,

miRNA

mRNA相互作用层代表miRNA靶向的已知mRNA,

lncRNA

lncRNA序列相似性层测量lncRNA之间的序列相似性,

lncRNA

lncRNA共表达层测量lncRNA之间的表达相似性,

lncRNA

mRNA相互作用层代表lncRNA靶向的已知mRNA;步骤2:采用基于特定图层的方法来聚合来自不同图层的特征,使用平均池化层进行聚合得到网络层中节点i的k阶特征即得到多层异质图中的每个节点在所在图层中的边嵌入,说明了节点i的第k阶特征取决于节点i以及其邻居的k

1阶特征的平均值:其中σ(
·
)表示sigmoid函数,W
(k)
是一个需要在训练过程中学习的权重矩阵,mean(
·
)代表取平均操作,r代表图层编号即代表第r个网络层,N
i,r
是一个包含了节点i以及其邻居的节点集合,表示N
i,r
集合中节点j的(k

1)阶特征,其中1≤k≤K,K表示每个网络层的最大特征聚集级别;步骤3:将节点i的所有图层中的边嵌入记为矩阵U
i
=(u
i,1
,

,u
i,l
),其中U
i
∈R
s
×
l
,即U
i
是一个s
×
l的矩阵,s代表节点的边嵌入维度,l代表图层的总数;使用多头自注意力机制来对节点v
i
的多个图层的边嵌入进行编码得到H
i,r
[k],为:其中:k代表注意力头的编号,k∈[1,m],m代表总注意力头数;H
i,r
[k]表示在第r图层中的节点v
i
的第k头表示;A
i,r
的计算公式如下:其中r代表图层编号,i代表节点编号,softmax(
·
)代表softmax函数,)代表softmax函数,和为可学习矩阵,其中m代表总注意力头数,s代表节点的边嵌入维度,d
a
代表变化过程中的中间维度;步骤4:使用投影方法将将边嵌入投影到任务空间,再提取来自各图层的特征并最终整合到一起;具体为:通过以下公式将单个节点的多注意力头的表示从R
s
映射到最终的任务空间R
d
中:P
i,r
[k]=H
i,r
[k]W
p
其中W
p
∈R
s
×
d
是要通过训练来学习的矩阵参数,s代表节点经过投影器之前的边嵌入维度,d代表节点经过投影器之后的边嵌入维度,k代表注意力头的编号,P
i,r
[k]代表经过投影之后节点的第k头表示;选择双线性相互作用Bi

pool池进行池化操作来融合节点k个注意力头的表示,得到节点i在r层最终的边嵌入e
i,r
:其中:m表示总的注意力头数,j,k都代表注意力头的编号,p
i,r
[k]表示在第r图层的节点i的第k头表示,p
i,r
[j]表示在第r图层的节点i的第j头表示,表示两个向量的元素乘积,W
r,pool
是要通过训练来学习的矩阵参数;所述节点vi的基础嵌入在所有图层上共享,作为消息传递介质,融合来自各个图层的边嵌入,在各图层间传递;步骤5:通过从高斯分布中随机生成一组数值,可以随机初始化得到每一个节点的基础嵌入,采用下式对基础嵌入和边嵌入e
i,r
进行融合,得到t阶的融合嵌入进行融合,得到t阶的融合嵌入进行融合,得到t阶的融合嵌入代表t

1阶的基础嵌入,代表t阶的边嵌入;通过上一轮的融合嵌入与边嵌入的混合来实现相邻邻域聚合层次上...

【专利技术属性】
技术研发人员:汪涛肖翼甫尚学群邓强彭佳杰
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1