一种circRNA和miRNA关联关系高效预测方法技术

技术编号:33457631 阅读:13 留言:0更新日期:2022-05-19 00:39
本发明专利技术公开一种circRNA和miRNA关联关系高效预测方法,包括如下步骤:1、下载circRNA、疾病与miRNA数据,构建circRNA与miRNA的邻接矩阵A;2、计算基于疾病和miRNA的circRNA高斯内核相似度矩阵CCIS和CMIS,计算circRNA的序列相似度矩阵CES;计算基于疾病和circRNA的miRNA高斯内核相似度矩阵MIS和MCIS;3、构建circRNA和miRNA的综合相似度矩阵CS和MS;4、基于Node2vec算法计算相似度矩阵CNS、MNS;5、分别把CNS、MNS与A拼接成特征矩阵CF、MF;6、基于0矩阵与邻接矩阵A构建异构邻接矩阵A

【技术实现步骤摘要】
一种circRNA和miRNA关联关系高效预测方法


[0001]本专利技术涉及生物信息学领域,具体涉及一种预测circRNA和miRNA关联关系的方法。

技术介绍

[0002]随着基因组学和生物信息学的发展,尤其是高通量测序技术的大量应用,科学家发现了越来越多的非蛋白编码的转录单元。尤其是circRNA作为miRNA(microRNA)的海绵吸附体,可间接调控miRNA靶基因表达,在人类疾病的发生发展过程中发挥重要作用。因此,circRNA可作为疾病的生物标志物,广泛用于疾病诊断。
[0003]目前人们对circRNA的形成和特征已基本了解,但仍有许多生物学功能尚不清楚。有关circRNA的研究主要集中在其与疾病间的相关性方面,大量研究表明,circRNA可作为疾病的生物标志物,在癌症治疗及预防方面存在巨大的发展潜力,但对各种疾病的发生发展调控机制知之甚少,需进行深入探究。并且circRNA还有许多尚未知悉的重要生物学功能,其在各研究领域均具有巨大的应用潜力。
[0004]照人类全基因转录组分析,人类基因组有大量的基因产生转录为RNA,但是仅有百分之一到百分之二的RNA翻译成蛋白质。这暗示了人类基因组有大量序列不编码蛋白质,生物体有大量miRNA的产生。尤其是circRNA作为miRNA的海绵吸附体,它可以间接调控miRNA靶基因表达。然而,绝大多数circRNA与疾病之间的关联、miRNA与疾病之间的关联尚不清楚,需要通过实验发现circRNA与miRNA之间未知的交互关系来帮助研究人员发现它们与疾病之间的关系,用以探索它们之间的潜在调控机制与进行新药品的研制。
[0005]此外,circRNA的研究是当前的一个研究热点问题,越来越多的实验证据表明,它们在染色体重组、转录激活、转录抑制、蛋白抑制和转录后修饰等方面发挥着极其重要的作用。许多circRNA通过实验被识别出来放在公共的医学数据库中,其中也包括一些circRNA

疾病关联的数据库,比如CircR2Disease和Circ2Disease以及circBase等,这些数据库用以收录多种已发现的与疾病相关的circRNA。
[0006]然而,绝大多数circRNA与疾病、miRNA与疾病之间的关联尚不清楚,另一方面,研究表明由遗传RNA的基因排列顺序对疾病也起着重要作用,所以对circRNA、miRNA与基因、序列的关联关系进行预测有助于研究circRNA、miRNA与疾病之间的关系。但是,基于实验方法预测circRNA、miRNA与疾病关联的方法是既昂贵又耗时,并且现有的方法很少使用异构生物网络的拓扑信息,或者简单地将所有对象视为同一类型,而不考虑异构网络中不同路径的不同细微语义含义,这在一定程度上会降低准确度。因此,迫切需要提出更高效的基于计算的方法预测circRNA和miRNA的关联,来帮助发现circRNA、miRNA与疾病之间的关系。

技术实现思路

[0007]本专利技术的目的是针对现有生物技术耗费较高,提出一种基于深度学习的方法,在异构网络中预测circRNA

miRNA关联关系的方法,来帮助发现circRNA、miRNA与疾病之间的
关系。
[0008]本专利技术提出的一种circRNA和miRNA关联关系的高效预测方法,步骤如下:
[0009]1.计算circRNA

miRNA关联矩阵A,计算基于miRNA的circRNA的高斯内核相似度矩阵CMIS,计算circRNA

疾病关联矩阵A
c
,计算基于疾病的circRNA的高斯内核相似度矩阵CCIS,计算基于序列的circRNA相似度矩阵CES,计算基于circRNA的miRNA高斯内核相似度矩阵MIS,计算基于疾病的miRNA的高斯内核相似度矩阵MCIS,步骤如下:
[0010]利用公开数据库CircR2Cancer(网址:http://www.biobdlab.cn:8000/index/)下载的已知circRNA

miRNA、circRNA

疾病关联关系,构建circRNA

miRNA关联关系矩阵A,如果circRNA与miRNA存在关联,则A中对应的元素为1,否则为0;构建circRNA

疾病关联关系矩阵A
c
,如果circRNA与疾病存在关联,则A
c
中对应的元素为1,否则为0。高斯内核相似度用于测量生物分子之间的相似性,利用circRNA

miRNA关联关系矩阵A,计算出高斯内核相似度矩阵CMIS用于描述基于miRNA的circRNA内核相似性信息;利用circRNA

疾病关联矩阵A
c
,计算出高斯内核相似度矩阵CMIS用于描述基于疾病的circRNA内核相似性信息;最后,通过公开数据库circBase(网址:http://www.circbase.org/)下载已知的circRNA

序列关联关系,然后基于混沌博弈表示(chaos game representation,CGR)的方法,利用皮尔森相关系数来量化位置信息和非线性信息之间的相似性和差异,计算出基于序列的circRNA相似度矩阵CES。具体步骤如下:
[0011](1)构建circRNA

miRNA关联关系的关联矩阵A,A的行数为circRNA的数量,A的列数为miRNA的数量,A(c
i
,m
j
)如式(1)所示:
[0012][0013]其中A(c
i
,m
i
)=1表示circRNA c
i
和miRNA m
j
存在关联,值为0表示不存在关联。
[0014](2)构建基于miRNA的circRNA的高斯相互作用属性核相似度矩阵CMIS,对于一个circRNA c
i
,它的IP1(c
i
)值定义为circRNA

miRNA关联关系的关联矩阵A的第i行,计算每一对circRNA c
i
和circRNA c
j
之间的高斯相互作用属性核相似度,如式(2)所示:
[0015]CMIS(c
i
,c
j
)=exp(

γ
c
||IP1(c
i
)

IP1(c
j
)||2)
ꢀꢀꢀꢀ
(2)
[0016][0017]其中,CMIS表示基于miRNA的circRNA的高斯相互作用属性核相似矩阵,元素CMIS(c
i
,c
j
)表示circRNA c
i
和circRNA c...

【技术保护点】

【技术特征摘要】
1.一种circRNA和miRNA关联关系的高效预测方法,主要包括以下步骤:步骤1:从公开数据库CircR2Cancer(网址:http://www.biobdlab.cn:8000/index/)下载circRNA与疾病、miRNA关联关系数据库,得到circRNA

miRNA关联关系数据库,获取circRNA

miRNA关联矩阵A和circRNA

疾病关联矩阵A
c
;从公开数据库circBase(网址:http://www.circbase.org/)下载circRNA与序列信息数据库;通过上述数据库提供的信息分别计算出基于疾病的circRNA的高斯内核相似度矩阵CCIS、基于miRNA的circRNA的高斯内核相似度矩阵CMIS与基于序列的circRNA相似度矩阵CES;根据circRNA

miRNA关联矩阵A,计算出基于miRNA的高斯内核相似度矩阵MIS;根据miRNA

疾病关联矩阵A
m
,计算出基于miRNA的高斯内核相似度矩阵MCIS;步骤2:利用circRNA相似度矩阵CCIS、CMIS、CES,整合后得到circRNA综合相似度矩阵CS;利用miRNA相似度矩阵MIS、MCIS整合得到miRNA综合相似度矩阵MS;步骤3:分别对circRNA综合相似度矩阵CS和miRNA综合相似度矩阵MS采用Node2vec算法计算出circRNA与miRNA的特征矩阵CNS、MNS;步骤4:拼接矩阵CNS与A得到circRNA特征矩阵CF、拼接MNS与A得到miRNA特征矩阵MF;步骤5:整合0矩阵、A矩阵得到异构邻接矩阵A
cm
,整合CF、MF矩阵得到异构特征矩阵CM;步骤6:把异构邻接矩阵A
cm
与异构特征矩阵CM嵌入图注意力网络,通过基于talking

heads与条件随机场算法进行编码,再通过完全矩阵分解算法进行解码得出最终得分矩阵进行预测;步骤7:使用5折交叉验证进行验证;步骤1中计算circRNA

miRNA关联矩阵A,计算基于miRNA的circRNA的高斯内核相似度矩阵CMIS,计算circRNA

疾病关联矩阵A
c
,计算基于疾病的circRNA的高斯内核相似度矩阵CCIS,计算基于序列的circRNA相似度矩阵CES,计算基于circRNA的miRNA高斯内核相似度矩阵MIS,计算基于疾病的miRNA的高斯内核相似度矩阵MCIS,步骤如下:利用公开数据库CircR2Cancer(网址:http://www.biobdlab.cn:8000/index/)下载的已知circRNA

miRNA、circRNA

疾病关联关系,构建circRNA

miRNA关联关系矩阵A,如果circRNA与miRNA存在关联,则A中对应的元素为1,否则为0;构建circRNA

疾病关联关系矩阵A
c
,如果circRNA与疾病存在关联,则A
c
中对应的元素为1,否则为0;高斯内核相似度用于测量生物分子之间的相似性,利用circRNA

miRNA关联关系矩阵A,计算出高斯内核相似度矩阵CMIS用于描述基于miRNA的circRNA内核相似性信息;利用circRNA

疾病关联矩阵A
c
,计算出高斯内核相似度矩阵CMIS用于描述基于疾病的circRNA内核相似性信息;最后,通过公开数据库circBase(网址:http://www.circbase.org/)下载已知的circRNA

序列关联关系,然后基于混沌博弈表示(chaos game representation,CGR)的方法,利用皮尔森相关系数来量化位置信息和非线性信息之间的相似性和差异,计算出基于序列的circRNA相似度矩阵CES;具体步骤如下:(1)构建circRNA

miRNA关联关系的关联矩阵A,A的行数为circRNA的数量,A的列数为miRNA的数量,A(c
i
,m
j
)如式(1)所示:
其中A(c
i
,m
i
)=1表示circRNAc
i
和miRNA m
j
存在关联,值为0表示不存在关联;(2)构建基于miRNA的circRNA的高斯相互作用属性核相似度矩阵CMIS,对于一个circRNA c
i
,它的IP1(c
i
)值定义为circRNA

miRNA关联关系的关联矩阵A的第i行,计算每一对circRNA c
i
和circRNA c
j
之间的高斯相互作用属性核相似度,如式(2)所示:CMIS(c
i
,c
j
)=exp(

γ
c
||IP1(c
i
)

IP1(c
j
)||2)
ꢀꢀꢀꢀ
(2)其中,CMIS表示基于miRNA的circRNA的高斯相互作用属性核相似矩阵,元素CMIS(c
i
,c
j
)表示circRNAc
i
和circRNA c
j
的高斯相互作用属性核相似度,γ
c
用于控制高斯相互作用属性核相似度的频宽,它表示基于新的频宽参数γ

c
的正则化的高斯相互作用属性核相似度频宽,且把γ

c
设置为1,n表示circRNA的数量;(3)构建circRNA

疾病关联关系的关联矩阵A
c
,A
c
的行数为circRNA的数量,A
c
的列数为疾病的数量,A
c
(c
i
,d
j
)如式(4)所示:其中A
c
(c
i
,d
j
)=1表示circRNA和疾病d
j
存在关联,值为0表示不存在关联;类似地,构建基于疾病的circRNA的高斯相互作用属性核相似度矩阵CCIS,对于一个circRNA c
i
,它的IP2(c
i
)值定义为circRNA

疾病关联关系的关联矩阵A
c
的第i行,计算每一对circRNA c
i
和circRNA c
j
之间的高斯相互作用属性核相似度,如式(5)所示:CCIS(c
i
,c
j
)=exp(

γ
cc
||IP2(c
i
)

IP2(c
j
)||2)
ꢀꢀꢀꢀ
(5)其中,CCIS表示基因的高斯相互作用属性核相似矩阵,元素CCIS(c
i
,c
j
)表示circRNA c
i
和circRNA c
j
的高斯相互作用属性核相似度,γ
cc
用于控制高斯相互作用属性核相似度的频宽,它表示基于新的频宽参数γ

cc
的正则化的高斯相互作用属性核相似度频宽,且把γ

cc
设置为1;k表示基因的数量;(4)基于混沌博弈表示(chaos game representation,CGR)的方法可以将circRNA序列转化成相应的类谱格式;该方法可以利用CGR坐标将circRNA序列转化成CGR弧度序列;circRNA序列具有非随机性,而非随机性意味着序列具有“结构”;因为混沌博弈可用于可视化显示某些类型的非随机性,且可以将circRNA序列形式上看成是由四个字母

a



c



g



u

(或

t

)组成的字符串,因此我们可以使用下一个基数(a,c,g,t/u)来选择下一个点;我们将CGR空间绘制成一个正方形,正方形的四个角分别标记为

a



c



g



u

;例如,如果

c

是序列的下一个符号(底数),则在前一个符号的点和

c

角之间的一半位置绘制一个点;假设某circRNA序列为

gaattc

,则CGR空间绘制方法如下:1).第一个

g

绘制在图形正方形的中心与”g

角之间的中间位置,记为p1;2).下一个符号”a

被绘制在刚绘制的点p1与

a

角之间的中间位置,记为p2;3).在上一个点p2和

a

角之间的中间位置绘制符号

a

的点,记为p3;4).接下来,将

t

绘制在p3与

t

角之间的中间位置,记为p4;5).其次,将下一个

t

绘制在p4与

t

角之间的中间位置,记为p5;
6).最后,将

c

绘制在p5与

c

角之间的中间位置此方法利用皮尔森相关系数来量化位置信息和非线性信息之间的相似性和差异,计算出基于序列的circRNA相似度矩阵CES;首先,把所有序列基数绘制完成,之后再将CGR空间划分为N
g
=8
×
8,即8行8列的网格,第i个网格grid
i
可以表示为式(7)所示:grid
i
=(X
i
,Y
i
,Z
i
)
ꢀꢀꢀꢀꢀ
(7)其次,分别累加每个网格中的横坐标值x
j
和纵坐标值y
j
得到网格grid
i
的量化位置信息X
i
和Y
i
,如式(8)所示:Num
i
=number of points in grid
i
ꢀꢀꢀꢀꢀ
(9)其中Num
i
表示第i个网格grid
i
中的点数,X
i
表示第i个网格grid
i
的中点的所有点的横坐标值X
i
的和,Y
i
表示第i个网格grid
i
的中点的所有点的横坐标值Y
i
的和;再次,计算网格grid的Z
i
分数得到量化非线性信息,如式(10)所示:其中N
g
=64,表示网格总数;最后,基于上面计算每个网格grid
i
的X
i
、Y
i
和Z
i
三个属性,我们将这三个属性融合以构造描述数组,即descriptors(c
i
),如(11)所示:以c1为例,descriptors(c1)=((X1,Y1,Z1),(X2,Y2,Z2),...,(X61,Y64,Z64));再由皮尔逊相关系数确定序列相似度CES(c
i
,c
...

【专利技术属性】
技术研发人员:邝祝芳马志豪张宇豪
申请(专利权)人:中南林业科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1