【技术实现步骤摘要】
基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法
本专利技术涉及机器学习与生物基因结合领域,更具体地,涉及一种基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法。
技术介绍
LncRNA是一类超过200个核苷酸的非编码RNA。大量研究表明,lncRNA在许多重要的生物学过程中发挥着关键作用,包括翻译、剪接、分化、表观遗传调控和免疫应答。近年来,科学家发现lncRNA过表达或失调与各种癌症等复杂疾病密切相关,如肝癌(HCC)、胃癌、乳腺癌、膀胱癌、帕金森病(PD)等。因此,开发计算方法来推断潜在的疾病-lncRNA之间的关联,不仅可以加快疾病的诊断和治疗,还可以从分子水平上理解疾病的机制。此外,发展计算方法可以减少时间成本,为生物研究提供有效的实验方向。因此,识别与疾病相关的潜在lncRNAs对发现疾病生物标志物以及治疗、诊断和预防人类复杂疾病具有重要意义。鉴于传统的实验费时费力,计算模型可以作为识别lncRNA疾病关联的有效辅助工具。多年来,许多计算方法已被开发出来,以推断潜在的lncR ...
【技术保护点】
1.一种基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法,其特征在于,包括以下步骤:/nS1:计算lncRNA相似矩阵LS和疾病相似矩阵DS的高阶接近矩阵;/nS2:获取疾病-lncRNA邻接矩阵DL,所述疾病-lncRNA邻接矩阵用于描述lncRNA-疾病关联关系;/nS3:构建一个异构性的疾病-lncRNA关联矩阵,所述疾病-lncRNA关联矩阵整合了疾病-lncRNA邻接矩阵DL、lncRNA相似矩阵LS的高阶接近矩阵和疾病相似矩阵DS的高阶接近矩阵;/nS4:采用矩阵补全法,在所述疾病-lncRNA关联矩阵中预测lncRNA-疾病的关联。/n
【技术特征摘要】
1.一种基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法,其特征在于,包括以下步骤:
S1:计算lncRNA相似矩阵LS和疾病相似矩阵DS的高阶接近矩阵;
S2:获取疾病-lncRNA邻接矩阵DL,所述疾病-lncRNA邻接矩阵用于描述lncRNA-疾病关联关系;
S3:构建一个异构性的疾病-lncRNA关联矩阵,所述疾病-lncRNA关联矩阵整合了疾病-lncRNA邻接矩阵DL、lncRNA相似矩阵LS的高阶接近矩阵和疾病相似矩阵DS的高阶接近矩阵;
S4:采用矩阵补全法,在所述疾病-lncRNA关联矩阵中预测lncRNA-疾病的关联。
2.根据权利要求1所述的基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法,其特征在于,步骤S1中lncRNA相似矩阵LS,具体为:
从ArrayExpress下载lncRNA表达谱,通过RNA-Seq技术生成;在前期研究的基础上,通过计算每个lncRNA对表达谱之间的spearman相关系数来表示lncRNA的表达相似性,用矩阵LS(li,lj)来描述lncRNAli和lncRNAlj的表达相似性,相似性在0到1之间;lncRNAli与lncRNAlj的表达相似性越高,分值越高。
3.根据权利要求1所述的基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法,其特征在于,步骤S1中疾病相似矩阵DS,具体为:
从美国国家医学图书馆MeSH下载网格描述后,引入一个基于有向无环图DAG的模型来描述疾病之间的语义相似性,有向无环图(DAG)可用来描述疾病d,即DAG(d)=(d,T(d),E(d)),其中T(d)为节点集,E(d)为边集,对于给定特定疾病d,其祖先节点q在DAG(d)中的贡献值定义如下具体为:
结合其祖先节点在DAG(d)中的贡献值,可以将疾病d的语义值描述为:
如果两种疾病在DAG中有更多的共享节点,则可以认为两种疾病之间的语义相似性更高,使用语义相似矩阵DS(di,dj)来表示疾病di和疾病dj之间的语义相似度,定义为:
4.根据权利要求3所述的基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法,其特征在于,步骤S1中计算疾病相似矩阵DS的高阶接近矩阵,具体为:
在疾病相似矩阵DS的基础上构造q阶接近矩阵HD,以保持疾病语义相似矩阵的不同顺序邻近信息如下:
其中DSn是DS的n阶接近度,y是权重参数且y≥0;
采用奇异值分解技术来提高数据质量:
HD=UΣVT
其中U∈Rnd×nd是左奇异向量矩阵,Σ∈Rnd×nd是奇异值降序对角矩阵,V∈Rnd×nd是一个右奇异向量矩阵;
然后通过保持k个最大奇异值来重建高阶邻近矩阵HD:
其中Σk为k个奇异值矩阵,Uk和Vk是top-k奇异值分别对应左、右奇异向量...
【专利技术属性】
技术研发人员:林志毅,朱印廷,顾国生,孙宇平,谢国波,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。