【技术实现步骤摘要】
一种用于推断lncRNA
‑
疾病关联的受校正相似性约束的概率矩阵分解方法
[0001]本专利技术涉及机器学习与生物基因结合领域,更具体地,涉及一种用于推断lncRNA
‑
疾病关联的受校正相似性约束的概率矩阵分解方法。
技术介绍
[0002]长非编码RNA(lncRNAs)与疾病之间的关系近年来引起了极大的兴趣。人们对lncRNAs的理解尚处于起步阶段,但现在越来越多的证据表明lncRNAs与某些人类疾病密切相关。在许多情况下,lncRNAs被证明是基因表达的主要调节器,lncRNA介导的基因表达涉及多种机制,如转录调节、翻译、蛋白质修饰以及RNA蛋白或蛋白质复合物的形成。因此,它们在各种生物功能和疾病过程中起着关键作用,包括癌症;如乳腺癌、肺癌、乳腺癌、肾细胞癌、膀胱癌等。lncRNAs与疾病之间的关联对于复杂人类疾病发病机制的研究具有重要意义,获取越多的lncRNA
‑
疾病关联对于了解疾病发病的病因,诊治与预防有着重要作用。但目前只有少数lncRNA
‑ >疾病关联得到了实验本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于推断lncRNA
‑
疾病关联的受校正相似性约束的概率矩阵分解方法,其特征在于,包括以下步骤:S1:获取lncRNA
‑
疾病邻接矩阵Y,所述lncRNA
‑
疾病邻接矩阵用于描述lncRNA
‑
疾病关联关系;S2:计算lncRNA表达相似矩阵ES和疾病语义相似矩阵DS;S3:利用Logistic函数对ES和DS进行相似性校正得到lncRNA校正相似性矩阵LE和疾病校正相似性矩阵LD,以突出相似性范围[0,1]内的强关联性,淡化弱关联性;S4:采用校正相似性矩阵LE和LD作为约束进行概率矩阵分解,在所述lncRNA
‑
疾病关联矩阵中预测lncRNA
‑
疾病的关联。2.根据权利要求1所述的一种用于推断lncRNA
‑
疾病关联的受校正相似性约束的概率矩阵分解方法,其特征在于,所述步骤S1中获取lncRNA
‑
疾病邻接矩阵Y,具体为:从LncRNADisease数据库下载了一个lncRNA
‑
疾病关联数据集,删除了一些重复的lncRNA和疾病以及非人类的数据,然后,在447种lncRNAs和218种疾病之间得到了1690对实验验证的lncRNA
‑
疾病关系;通过建立lncRNA
‑
疾病邻接矩阵Y∈R
nl
×
nd
来描述lncRNA
‑
疾病的关系;其中变量nl和nd分别代表lncRNA和疾病的数量;矩阵Y定义如下:如果一个lncRNA l
i
被证实与疾病d
j
相关,则Y(i,j)被设置为1;否则,Y(i,j)为0。3.根据权利要求1所述的一种用于推断lncRNA
‑
疾病关联的受校正相似性约束的概率矩阵分解方法,其特征在于,所述步骤S2中lncRNA相似矩阵ES,具体为:本研究从ArrayExpress数据库中获取并使用RNA测序技术生成的lncRNA表达谱,计算其表达谱之间的Spearman相关系数可以得到lncRNAs之间的表达相似性;我们使用ES来表示lncRNA l
i
和lncRNA l
j
之间的表达相似性,其中ES(l
i
,l
j
)∈[0,1]。4.根据权利要求1所述的一种用于推断lncRNA
‑
疾病关联的受校正相似性约束的概率矩阵分解方法,其特征在于,所述步骤S2中疾病语义相似矩阵DS,具体为:基于医学图书馆MESH(https://www.nlm.nih.gov/mesh/meshhome.html)的描述符信息,我们构建了一个有向无环图DAG来计算疾病之间的语义相似性;一个疾病d由DAG(d)=(d,V(d),E(d))描述,其中V(d)和E(d)分别是DAG的顶点集和边集;根据疾病d的DAG图结构,我们可以计算出疾病m对疾病d的语义价值S;根据疾病的DAG图,疾病的语义值被定义为该疾病祖先节点和该疾病对其本身的语义贡献值之和,公式表示如下:T
d
=∑
m∈V(d)
T
d
(m)基于上述步骤,我们可以构建语义相似度矩阵DS以表示疾病d
i
和疾病d
j
之间的语义相似度:
5.根据权利要求1所述的一种用于推断lncRNA
‑
疾病关联的受校正相似性约束的概率矩阵分解方法,其特征在于,所述步骤S3中计算lncRNA校正相似性矩阵LE,具体为:相似性校正方法被采用来降低矩阵分解过程中lncRNA和疾病相似性矩阵所带来的噪声影响;通过Logistic函数转换,以突出相似性范围[0,1]内的强关联性,淡化弱关联性的方式去减少相似性矩阵中存在的噪声;在疾病相关基因的研究中已经使用过这种方法;Logistic函数定义如下。当x∈[0,0.3]时L(x)≈0;当x∈[0.6,1]时L(x)≈1;这意味着处于[0,0.3]范围内的弱相似系数是损失的信息,强相似系数值在在[0.6,1]的范围内,通常显示出显著的共同表达的关系;这意味着L(0)需要接近0,于是我们设置L(0)=0.0001可以得到d=log(9999);而c作为校正程度系数参与模型的参数调节;因此我们可以得到lncRNA校正相似性矩阵LE如下所示:6.根据权利要求1所述的一种用于推断lncRNA
‑
疾病关联的受校正相似性约束的概率矩阵分解方法,其特征在于,所述步骤S3所述疾病...
【专利技术属性】
技术研发人员:林志毅,陈锐滨,谢国波,顾国生,余俊锐,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。