基于Logistic函数填充相似性矩阵的miRNA-疾病关联预测方法技术

技术编号:37713501 阅读:11 留言:0更新日期:2023-06-02 00:07
本发明专利技术提供基于Logistic函数填充相似性矩阵的miRNA

【技术实现步骤摘要】
基于Logistic函数填充相似性矩阵的miRNA

疾病关联预测方法


[0001]本专利技术涉及机器学习与生物基因结合领域,更具体地,涉及基于Logistic函数填充相似性矩阵的miRNA

疾病关联预测方法。

技术介绍

[0002]MicroRNAs(miRNAs)是一组小的非编码RNA(约20

25个核苷酸),在转录后过程中通常可以作为靶信使RNA(mRNA)表达的负调控因子。它们通过碱基配对抑制靶mRNA,并影响基因翻译。而且,已经证实miRNA也可以作为正调节因子。近年来,大量现有的研究表明,miRNAs参与了许多重要的生物过程,包括细胞分化、发育、增殖和信号转导。此外,一些先前的研究证明miRNAs与各种疾病有关,包括癌症、阿尔茨海默症、糖尿病和淋巴瘤。例如,hsa

mir

21的表达水平与超过125种疾病相关。因此,识别更多miRNA与疾病之间的关系对生物医学研究有重要贡献。对疾病与miRNAs相关的知识可以促进我们在分子水平上理解疾病的发病机制,并有益于设计疾病诊断和治疗的分子工具。此外,基于miRNA对疾病的治疗也在研究。在这种背景下,对识别miRNA

疾病关联的需求越来越大,这导致了生物医学领域的密集研究活动。
[0003]传统的实验方法对发现潜在的关联具有较高的精度,但其过程复杂、耗时。开发一种有效、方便的方法来检测miRNA与疾病之间的关系尤为重要。而计算模型可以作为识别miRNA

疾病关联的有效辅助工具。在目前的研究阶段,预测miRNA和疾病之间的关联关系,可以分为基于复杂网络和基于机器学习的两大类方法。
[0004]基于复杂网络的方法是通过构建已知的疾病与miRNA关系网络,提取节点之间的关联强度信息,判断网络中未连接的位置是否可能是新的边,即潜在的miRNA和疾病的关联关系,该类方法对构建的网络要求较高,高可信度的生物网络模型可以使预测结果变得更为可靠。
[0005]基于机器学习的方法则是将机器学习相关算法应用到这个问题中,利用已知数据集构建有监督或半监督的分类器,以此判断数据是否存在关联关系,这类方法在一定程度上解决了新miRNA与新疾病的预测问题,但是需要事先构建高可信度的负样本集,并且解决特征提取的问题。
[0006]在最近几年的研究中,无论是基于复杂网络的方法还是基于机器学习的方法,大部分都基于这样一种假设,即基于表型相似的疾病倾向于与功能相似的miRNAs相关的生物学假设。基于此假设,高斯相似性、余弦相似性、汉明相似性等相似性算法被应用于近几年的研究中并取得有效的结果。其中,高斯相似性和汉明相似性算法都是比较一对长度相同的向量(由0和1组成的向量)对应位不同的位个数,位个数越少,则此对向量的相似度越高。余弦相似性算法则是比较一对向量中对应位相同且为1的的位个数,位个数越多,则此对向量的相似度越高。
[0007]上述三种相似性算法被广泛应用于预测miRNA

疾病关联,但是,miRNA

疾病的已
知关联数据有其特殊性,1的含义代表miRNA和疾病有关联,而0的含义是miRNA和疾病的关系尚未被揭示,并不是代表无关。高斯相似性和汉明相似性并没有区别对待向量中的0和1,而余弦相似性只关注一对向量对应位同为1的情况,都没有能够充分利用miRNA

疾病的关联关系矩阵。我们衡量一对向量之间的相似性,不应该只考虑它们对应的位不同的情况或者只考虑它们对应的位同时为1的情况。考虑到高斯、汉明相似性与余弦相似性的性质具有互补性,因此用Logistic函数综合二者的优点。我们将MD矩阵每两行(每两列)对应位相同且为1与不同的位个数作为Logistic函数的变量,计算出来的值用于填充MFS(DSS)矩阵的0值处,填充后的矩阵为MS(DS)。

技术实现思路

[0008]本专利技术提供基于Logistic函数填充相似性矩阵的miRNA

疾病关联预测方法,更好地预测miRNA和疾病的关联。
[0009]为解决上述技术问题,本专利技术的技术方案如下:
[0010]基于Logistic函数填充相似性矩阵的miRNA

疾病关联预测方法,其特点在于,包括以下步骤:
[0011]S1:获取miRNA功能相似性MFS、疾病语义相似性DSS以及miRNA

疾病邻接矩阵MD;
[0012]S2:将MD矩阵每两行对应位相同且为1与不同的位个数作为Logistic函数的变量,计算出来的值用于填充MFS矩阵的0值处,填充后的矩阵为MS;将MD矩阵每两列对应位相同且为1与不同的位个数作为Logistic函数的变量,计算出来的值用于填充DSS矩阵的0值处,填充后的矩阵为DS;
[0013]S3:分别为MS和DS矩阵建立一个权重矩阵来进一步消除整体的噪声;
[0014]S4:使用拉普拉斯正则化最小二乘法来挖掘潜在的miRNA

疾病关联。
[0015]优选地,步骤S1中miRNA功能相似矩阵MFS,具体为:
[0016]根据一种比较普遍的假设,功能相似的miRNA倾向于与表型相似的疾病存在关联关系,Wang等人借助了疾病语义相似性的帮助,计算得到了miRNA的功能相似性。该功能相似性分数在http://www.cuilab.cn/files/images/cuilab/misim.zip提供下载使用。由此我们构建了miRNA功能相似性矩阵MFS∈R
p
×
p
。其中,MFS(m
i
,m
j
)是miRNA m
i
和m
j
之间的功能相似性得分,p为miRNA的数量。
[0017]优选地,步骤S1中疾病语义相似性矩阵DSS,具体为:
[0018]在MeSH数据库中,疾病d
i
可以被标记为有向无环图(DAG)中的一个节点。我们将一个子网络表示为G(d
i
)=(d
i
,T(d
i
),E(d
i
)),其中T(d
i
)是包含d
i
自身的所有祖先节点的集合,E(d
i
)是对应链接的集合。每种疾病的语义得分可以通过以下公式计算出来。
[0019][0020]结合其祖先节点在DAG(d
i
)中的贡献值,可以将疾病d
i
的语义值描述为:
[0021][0022]如果两种疾病在DAG中有更多的共享节点,则可以认为两种疾病之间的语义相似
性更高,使用语义相似矩阵DSS(d
i
,d
j
)来表示疾病d
i
和疾病d
j
之间的语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Logistic函数填充相似性矩阵的miRNA

疾病关联预测方法,其特点在于,包括以下步骤:S1:获取miRNA功能相似性MFS、疾病语义相似性DSS以及miRNA

疾病邻接矩阵MD;S2:将MD矩阵每两行对应位相同且为1与不同的位个数作为Logistic函数的变量,计算出来的值用于填充MFS矩阵的0值处,填充后的矩阵为MS;将MD矩阵每两列对应位相同且为1与不同的位个数作为Logistic函数的变量,计算出来的值用于填充DSS矩阵的0值处,填充后的矩阵为DS;S3:分别为MS和DS矩阵建立一个权重矩阵来进一步消除整体的噪声;S4:使用拉普拉斯正则化最小二乘法来挖掘潜在的miRNA

疾病关联。2.根据权利要求1所述的基于Logistic函数填充相似性矩阵的miRNA

疾病关联预测方法,其特征在于,步骤S1中miRNA功能相似矩阵MFS,具体为:根据一种比较普遍的假设,功能相似的miRNA倾向于与表型相似的疾病存在关联关系,Wang等人借助了疾病语义相似性的帮助,计算得到了miRNA的功能相似性;该功能相似性分数在http://www.cuilab.cn/files/images/cuilab/misim.zip提供下载使用;由此构建了miRNA功能相似性矩阵MFS∈R
p
×
p
;其中,MFS(m
i
,m
j
)是miRNA m
i
和m
j
之间的功能相似性得分,p为miRNA的数量。3.根据权利要求1所述的基于Logistic函数填充相似性矩阵的miRNA

疾病关联预测方法,其特征在于,步骤S1中疾病语义相似性矩阵DSS,具体为:在MeSH数据库中,疾病d
i
可以被标记为有向无环图(DAG)中的一个节点;我们将一个子网络表示为G(d
i
)=(d
i
,T(d
i
),E(d
i
)),其中T(d
i
)是包含d
i
自身的所有祖先节点的集合,E(d
i
)是对应链接的集合;每种疾病的语义得分可以通过以下公式计算出来;结合其祖先节点在DAG(d
i
)中的贡献值,可以将疾病d
i
的语义值描述为:如果两种疾病在DAG中有更多的共享节点,则可以认为两种疾病之间的语义相似性更高,使用语义相似矩阵DSS(d
i
,d
j
)来表示疾病d
i
和疾病d
j
之间的语义相似度,定义为:由此我们构建了疾病语义相似性矩阵DSS∈R
q
×
q
,这里,DSS(d
i
,d
j
)是疾病d
i
和d
j
之间的语义相似性得分,q为疾病的数量。4.根据权利要求1所述的基于Logistic函数填充相似性矩阵的miRNA

疾病关联预测方法,其特征在于,步骤S1中miRNA

疾病邻接矩阵MD,具体为:从HMDD数据库获得了5430个miRNA

疾病关联,包括495个miRNAs和383种疾病,miRNAs的集合用表示,疾病的集合用表示;关联矩阵用Y∈R
p
×
q
表示,其中Y(i,j)∈{0,1};当miRNA m
i
与疾病d
j
有关联时,将Y(i,j)设为1;否则,将Y(i,j)设为0。
5.根据权利要求1所述的基于Logistic函数填充相似性矩阵的miRNA

疾病关联预测方法,其特征在于,步骤S2中将MD矩阵每两行对应位相同且为1与不同的位个数作为Logistic函数的变量,计算出来的值用于填充MFS矩阵的0值处,填充后的矩阵为MS。6.根据权利要求1所述的基于Logistic函数填充相似性矩阵的mi...

【专利技术属性】
技术研发人员:谢国波谢伟杰顾国生林志毅刘世刚刘浩杰
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1