当前位置: 首页 > 专利查询>江南大学专利>正文

基于多层协同注意力图协同过滤的关系预测方法技术

技术编号:37334345 阅读:15 留言:0更新日期:2023-04-21 23:12
本发明专利技术属于智能细胞生物识别领域,具体涉及一种基于多层协同注意力图协同过滤的关系预测方法。一种基于多层协同注意力图协同过滤的关系预测方法,该方法包括circRNA与疾病的特征构建,circRNA与疾病的多特征融合,多层协同注意力表征学习,基于协同过滤的模型训练与关系预测4个阶段。本方法在已有的特征描述符基础上,构造中心网络上的传播机制,对circRNA与疾病间的交互作用进行深层挖掘,使circRNA

【技术实现步骤摘要】
基于多层协同注意力图协同过滤的关系预测方法


[0001]本专利技术属于智能细胞生物识别领域,具体涉及一种基于多层协同注意力图协同过滤的关系预测方法。

技术介绍

[0002]circRNA,全称环状核糖核酸,是一种广泛的参与调控转录和转录后基因表达的非编码RNA。长期以来,circRNA由于其低丰度和缺乏已知功能,被认为是基因重组的副产物。随着高通量RNA测序和生物信息学分析的发展,越来越多的circRNA被发现和鉴定。目前已经发现了超过30000种circRNA,其独特的结构比线性RNA更容易保持稳定性。多项研究发现,circRNA可以通过像海绵一样吸附RNA、与RNA结合蛋白(RBP)结合、调节转录或影响翻译等方式参与多种恶性肿瘤的调控生物过程,包括细胞周期、肿瘤发生、侵袭、转移、凋亡、血管化等。
[0003]目前,circRNA在生物医学领域已经成为了重要的研究热点。研究发现,circRNA可以作为RNA海绵与miRNA结合,并通过调节miRNA活性增加下游基因表达,从而促进肿瘤进展。例如,最早的circRNA CiRS

7含有70多个miR

7结合位点,作为miR

7海绵,反过来降低了miR

7对目标mRNA的影响。此外,circRNA还参与转录、翻译、剪接和与RNA结合蛋白(RBPs)的结合过程。且环状RNA可以与其他RNA分子如mRNA和lncRNA相互作用,甚至直接与DNA相互作用进而促进或抑制转录进程。因此,进一步研究circRNA与肿瘤的相互作用,开发新的circRNAs作为分子标志物或潜在靶点,将在肿瘤与疾病的早期诊断、治疗评价、预后预测甚至肿瘤基因治疗方面有广阔的应用前景。
[0004]对于circRNA与疾病的关系研究,一些相关的数据库也被建立起来。现也有很多方法可以通过利用机器学习模型从circRNA

疾病关系网中挖掘潜在的circRNA

疾病关系,其关注点主要在于利用原始circRNA序列的序列特征或circRNA

疾病关系网络直接预测未知circRNA

疾病。大多方法缺乏对关键circRNA

疾病之间协作信号的显示编码,而关键协作信号一般隐藏在circRNA

疾病关系网络中。因此,如何设计特征提取方法来弥补嵌入构造的不足依然是一个重要的挑战。

技术实现思路

[0005]circRNA与疾病关系研究大多基于单一数据库用例,在本专利技术中,使用了最近建立的基于实验验证的circR2Disease,circ2Disease和circRNADisease作为circRNA与疾病关联的统一数据集来衡量模型的性能。本专利技术涉及circR2Disease数据库中585种circRNA与88种疾病共650种已知circRNA与疾病关系,及circ2Disease数据库中包含的249种circRNA和60种疾病总共270种circRNA与疾病关系,及circRNADisease数据库中包含了330种circRNA和48种疾病共350种circRNA与疾病关系。同时,还结合PubMed数据检索库及其下Mesh数据库共同构建circRNA与疾病的相似度信息。
[0006]本专利技术的技术方案如下:
[0007]基于多层协同注意力图协同过滤的关系预测方法,该方法包括circRNA与疾病的特征构建,circRNA与疾病的多特征融合,多层协同注意力表征学习,基于协同过滤的模型训练与关系预测4个阶段如下所示:
[0008]第一阶段:circRNA与疾病的特征构建阶段。该阶段包含四个步骤,分别为疾病的第一种初始特征构建,疾病的第二种初始特征构建,circRNA的第一种初始特征构建,circRNA的第二种初始特征构建,其具体步骤如下:
[0009]在Mesh数据库中疾病以有向无环图的形式被保存。在Mesh中,节点被表示为疾病,边被表示为两者之间的关系。假设存在一种疾病d,它可以被描述为DAG
d
=(d,A
d
,E
d
),其中A
d
表示包含d在内的所有有关d的祖先节点,E
d
是对应这些疾病之间的边的集合。如果一个疾病e在DAG
d
中,那么它对疾病d的贡献值及其语义值可被计算出。假设两种疾病在DAG中共有的祖先疾病重合度越高,两种疾病之间的语义相似度就越大。因此得到了第一种语义相似度模型SD1(d(i),d(j))。为了让出现次数较少的疾病也能被加以重视,可引入第二种语义相似度模型SD2(d(i),d(j)),即小众疾病语义相似度特征来增加出现频次较少的疾病的贡献值。之后,将疾病的两种语义相似度模型融合得到了疾病的语义相似度模型:
[0010][0011]基于具有相似功能的疾病可能被相似的circRNA影响的假设,本专利技术利用了高斯交互剖面(Gaussian Interaction Profile Kernel,GIP)相似度矩阵来表示疾病之间的相似度并表示为DGS(d(i),d(j))。
[0012]同理,基于存在具有相似功能的circRNA可能影响相似疾病的假设,生成GIP相似度矩阵用来表示circRNA之间的相似度并表示为CGS(c(i),c(j))。
[0013]两种circRNA之间的功能相似性通常基于假设:具有相似语义的疾病所对应的circRNA在功能上也相似。利用这个方法,生成对的circRNA的功能相似性并表示为FC(c(i),c(j))。
[0014]该阶段具体步骤如下:
[0015]第一步:使用原始circRNA与疾病数据构造疾病的语义相似度信息SD。
[0016]第二步:使用原始circRNA与疾病数据构造疾病的高斯交互剖面相似度信息DGS。
[0017]第三步:使用原始circRNA与疾病数据构造circRNA的高斯交互剖面相似度信息CGS。
[0018]第四步:使用原始circRNA与疾病数据构造circRNA的功能相似度信息FC。
[0019]第二阶段:为了便于传入多层协同注意力表征学习模型,将circRNA与疾病的特征进行融合形成完整的特征是一种行之有效的方法。特征融合不仅可以揭示circRNA与疾病之间的关系,也同时表示了circRNA与疾病内部的联系。有助于挖掘更多潜在的circRNA与疾病的联系。对于疾病而言,已构建疾病的语义相似度特征与疾病的GIP相似度特征。为了更充分地表达Mesh数据库。如果疾病d(i)与d(j)之间存在语义相似度关联,则结合后的疾病特征DSim(d(i),d(j))为这两种疾病之间的语义相似度。否则为疾病的高斯交互剖面相似度。对于circRNA而言,已构建了关于circRNA的功能相似度与GIP相似度。类似地,circRNA特征融合阶段使用circRNA的GIP相似度作为circ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多层协同注意力图协同过滤的关系预测方法,其特点在于:步骤如下:第一步:使用语义相似度计算模型计算出疾病关系图中各疾病之间的语义相似度信息SD,作为疾病的第一种初始特征;第二步:使用高斯交互剖面核函数计算出circRNA

疾病关系图中各疾病之间的高斯交互剖面相似度信息DGS,作为疾病的第二种初始特征;第三步:使用高斯交互剖面核函数计算出circRNA

疾病关系图中各circRNA之间的高斯交互剖面相似度信息CGS,作为circRNA的第一种初始特征;第四步:基于第一步得到的疾病语义相似度,使用功能相似度计算模型计算出circRNA

疾病关系图中各circRNA之间的功能相似度信息FC,作为circRNA的第二种初始特征;第五步:使用特征融合算法合并circRNA的两种特征并形成新的circRNA特征CSim,合并疾病的两种特征形成新的疾病特征DSim;第六步:使用深度自编码器(DAE,deep autoencoder)重构circRNA特征与疾病的特征形成新的circRNA特征Cs与新的疾病特征Ds;第七步:使用Cs和Ds完成初始嵌入构造,生成circRNA与疾病的嵌入查询矩阵E;第八步:基于生成的嵌入矩阵E,使用多层协同注意力图消息传播机制,得到关于circRNA与疾病特征在整个关系网络上的聚合信息E
(l)
,并将其作为circRNA与疾病最终的特征表示;第九步:使用circRNA

疾病关系图中训练数据对协同过滤预测模型进行训练并计算得到预测结果Y

。2.如权利要求1所述的基于多层协同注意力图协同过滤的关系预测方法,其特征在于:所述第六步中的circRNA与疾病特征重构阶段使用的深度自编码器架构,包括1个编码层和1个解码层;用于circRNA的DAE,其编码层和解码层各由3个全连接层组成;各全连接层分别将585维输入特征降至350维,150维,64维;用于疾病的DAE,其编码层与解码层各由1个全连接层组成;各全连接层分别将88维输入特征降至64维且统一各层激活函数为ReLU。3.如权利要求1或2所述的基于多层协同注意力图协同过滤的关系预测方法,其特征在于:所述第七步中的初始嵌入构造中,E为初始嵌入矩阵,并表示为其中向量e
c
∈R
k
,e
d
∈R
k
,且e
c
为Cs中某circRNA的特征,e
d
为Ds中某疾病的特征。4.如权利要求1或2所述的基于多层协同注意力图协同过滤的关系预测方法,其特征在于:所述第八步的多层协同注意力图消息传播机制,使用的消息传播机制包含消息构造阶段与消息聚合阶段,并建立了基于circRNA中心网络与疾病中心网络的多层协同注意力机制;因此,在疾病中心网络上进行特征学习过程可表示为:其中为第l次传播过程中,在疾病d的中心网络上各circRNA对中心疾病的贡献值的大小并表示为:在circRNA与疾病整个网络上进行特征学习,其分层传播的矩阵运算形式表示为
其中是circRNA与疾病经过l次传播后的嵌入特征表示;消息传播的初始状态E
(0)
的初始值为...

【专利技术属性】
技术研发人员:邓赵红武群卓胡曙东刘月影王士同
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1