一种基于图表示学习的lncRNA-miRNA相互作用预测方法技术

技术编号:37237579 阅读:22 留言:0更新日期:2023-04-20 23:19
一种基于图表示学习的lncRNA

【技术实现步骤摘要】
一种基于图表示学习的lncRNA

miRNA相互作用预测方法


[0001]本专利技术涉及生物信息学
,具体涉及一种基于图表示学习的lncRNA

miRNA相互作用预测方法。

技术介绍

[0002]近年来,随着生物组学信息技术的不断发展,许多实验表明非编码RNA(non

coding RNA)对于一些重要的细胞活动起到关键的作用,探索长链非编码RNA(lncRNA)与微小(miRNA)相互作用对于研究lncRNA和miRNA在生命活动中的功能十分重要,并且发现许多疾病和疾病抑制性表达可能受到lncRNA与miRNA的构建的生物分子网络的影响。在分子水平上,可以预测lncRNA和miRNA在重要细胞活性中的潜在关联,有效促进新的生物标志物的发现,提高人们对于分子基础层面的认识。
[0003]在lncRNA

miRNA相互作用的研究中,大概可分为以下几类:基于传统湿式实验的方法、基于数据挖掘和数据分析技术的方法、基于深度学习的方法。Amanda等通过交互关联以及RT

qPCR方法得到了lncRNA TUSC7因子可抑制miR

23b的表达,从而抑制癌细胞的增殖。Li等人的结合米兰达(MIRANDA)和目标扫描(TARGETSCAN)算法,找出lncRNA种子结合位点和miRNA靶点,以此预测lncRNA

miRNA的关联性。但是传统的湿式方法存在耗时、代价高、很难对大批次数据进行标记等缺点。Li等系统地从108个CLIP

Seq数据集中探索了lncRNA

miRNA关联网络。Gong等人从不同的文献中收集了8091个经验证的lncRNA

miRNA关联信息。不过收集方法受限于湿式实验,对于未经验证的lncRNA

miRNA数据无法研究其是否存在关联性,而这些数据往往具有重要的研究价值。随着特征技术应用于预测方面,Huang等人提出了一种名为EPLMI的方法来预测lncRNA

miRNA关联,利用表达相似性提取的特征来构建已知相互作用的二部图。Hu等人分别计算了lncRNA与miRNA的序列相似性和表达相似性然后整合了这两个相似性网络,结合lncRNA

miRNA相互作用网络,构建了一个异构网络,提出了一个非负矩阵分解模型来进行预测关联性。
[0004]通过对三种方法的介绍,可以看出三者之间是相互联系的。首先随着传统生物湿式实验的发展,不断累积确定相互作用的lncRNA

miRNA关联数据,其次,通过收集方法将数据进行结构化,并发布到公开数据集中,最后,相关学者可以使用这些结构化数据开发新的预测模型,并不断筛选出最具可能性的相互作用对供生物实验者验证。通过这三类方法,极大的缩减了湿式实验的时间,大幅度提高了实验效率,节省了成本,但是目前仍然存在很多难题。

技术实现思路

[0005]为解决现有技术中存在的问题,本专利技术提出了一种基于图表示学习的lncRNA

miRNA相互作用预测方法,采用二阶图卷积网络使用多跳聚合方式学习邻居节点的不同权重值,使用多种图嵌入方法学习特征向量的低维表示,通过矩阵补全方法增强SGLMI的表达能力。在基准数据集上对预测方法进行了评价,取得了比其他先进方法更高的分类精度。
[0006]本专利技术的目的在于提供了一种基于图表示学习的lncRNA

miRNA相互作用预测方法(SGLMI),采用本方法能在不丢失关键序列信息的情况下,准确提高预测效率。主要包括以下步骤:
[0007]S1:数据集的收集与整理。lncRNA

miRNA数据集是由Huang Y A等人(Huang Y A,Chan K C C,You Z H.Constructing prediction models fromexpression profiles for large scale lncRNA

miRNA interaction profiling[J].Bioinformatics,2018,34(5):812

819.)通过实验验证获得。
[0008]S2:根据已知的lncRNA与miRNA的关联矩阵计算lncRNA序列相似性、lncRNA高斯相似性、miRNA序列相似性、miRNA高斯相似性来分别表示lncRNA的特征矩阵与miRNA特征矩阵,并对已知的lncRNA与miRNA关联矩阵进行补全,通过整合lncRNA与miRNA的不同相似性信息构建的lncRNA相似度矩阵以及miRNA相似度矩阵网络。
[0009]S3:使用图嵌入方式学习lncRNA和miRNA的节点信息的低维向量表示。
[0010]S4:通过二阶图卷积神经网络使用多跳聚合的方式为不同的邻居节点分配不同的权重值,提高对图的空间信息相关性的捕捉能力。
[0011]S5:将采用不同的图嵌入方法将得到的多种特征表示与二阶图表示进行特征融合,通过多层感知机(MLP)获取内部表示,将lncRNA与miRNA的特征向量信息通过内积融合得到评分预测矩阵。
[0012]S6:使用矩阵补全的方式增强模型适用性,通过矩阵分解的方式将一个含未知关联信息的lnRNA

miRNA关联矩阵分解为不同的矩阵,将分解后的矩阵进行相乘进而得到近似矩阵作为原始矩阵的补全信息来预测lncRNA

miRNA的潜在关联。
[0013]进一步地,步骤S1中数据集建立的过程具体包括:
[0014]S11:在lncRNASNP数据库中获取10597个经实验验证的lncRNA

miRNA相互作用数据,对所有的关联数据进行去重处理,整理之后共获得780种不同的lncRNA和275种不同的miRNA。
[0015]S12:通过LNCipedia数据库和miRBase数据库分别对lncRNA与miRNA进行序列检索获取770条lncRNA序列和275条miRNA序列,获得了5348个已知的lncRNA

miRNA关联对。
[0016]进一步地,步骤S2中分别计算lncRNA

miRNA相似性信息并融合矩阵的具体步骤包括:
[0017]S21:利用Needleman

Wunsch算法进行全局序列比对,得到两条序列的匹配得分,基于动态规划方式,采用BLAST打分矩阵,计算序列的匹配情况得到序列相似性矩阵:
[0018][0019]式中,S
ij
是计算得到的评分矩阵,a
i
和b
j
表示用于比较的两个序列。如果序列匹配,则将矩阵分数设为1,否则设置为

1。...

【技术保护点】

【技术特征摘要】
1.一种基于图表示学习的lncRNA

miRNA相互作用预测方法,其包括以下步骤:S1:数据集的收集与整理;获得不同的lncRNA和miRNA,以及已知的lncRNA

miRNA关联对信息;S2:根据已知的lncRNA与miRNA的关联矩阵计算lncRNA序列相似性、lncRNA高斯相似性、miRNA序列相似性、miRNA高斯相似性来分别表示lncRNA的特征矩阵与miRNA特征矩阵,并对已知的lncRNA与miRNA关联矩阵进行补全,通过整合lncRNA与miRNA的不同相似性信息构建的lncRNA相似度矩阵以及miRNA相似度矩阵网络;S3:使用图嵌入方式学习lncRNA和miRNA的节点信息的低维向量表示;S4:通过二阶图卷积神经网络使用多跳聚合的方式为不同的邻居节点分配不同的权重值;S41:设定一个lncRNA

miRNA关联图G,G=(V,E),V是节点集,E是边集,A为邻接矩阵;将图中节点信号表示为x∈R
N
,将lncRNA

miRNA节点集映射到的向量化表示,计算图卷积公式为:式中,H为每一层的特征矩阵,l表示图卷积的层数,σ表示激活函数,D表示度矩阵,W表示一个可训练的参数矩阵;S42:在图卷积的基础上,利用卷积高阶信息与原始低阶信息的聚合,将图卷积二阶多项式公式定义如下:f2(H
(l)
,A)=(ω2(H
(l)
,A)2+ω1(H
(l)
,A)+ω0I)x式中,ω表示内核权值,I表示一个单位矩阵;S5:将采用不同的图嵌入方法将得到的多种特征表示与二阶图表示进行特征融合,通过多层感知机获取内部表示,将lncRNA与miRNA的特征向量信息通过内积融合得到评分预测矩阵;S6:使用矩阵补全的方式增强模型适用性,通过矩阵分解的方式将一个含未知关联信息的lnRNA

miRNA关联矩阵分解为不同的矩阵,将分解后的矩阵进行相乘进而得到近似矩阵作为原始矩阵的补全信息来预测lncRNA

miRNA的潜在关联;S61:lncRNA与miRNA的线性表达计算公式如下:S61:lncRNA与miRNA的线性表达计算公式如下:式中,W
h
(h∈{1,2,...})表示第h层的权重矩阵,b为对应的偏置值,σ为激活函数;S62:lncRNA

miRNA补全矩阵计算公式如下:式中,β表示从已知的关联矩阵A中验证的lncRNA

miRNA数据,表示从已知的关联矩阵A中未验证的或未知的lncRNA

miRNA数据,A∈{0,1}
m
×
n
,m为lncRNA的数量,n为miRNA的数
量,l表示lncRNA,m表示miRNA,T为对应矩阵的转置;...

【专利技术属性】
技术研发人员:王元旭宋金淼段晓东魏明杰
申请(专利权)人:大连民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1