基于加权核规范正则化算法的lncRNA-疾病关联预测方法技术

技术编号:37713499 阅读:13 留言:0更新日期:2023-06-02 00:07
本发明专利技术提供基于加权核规范正则化算法的lncRNA

【技术实现步骤摘要】
基于加权核规范正则化算法的lncRNA

疾病关联预测方法


[0001]本专利技术涉及矩阵补全算法与生物基因结合领域,更具体地,涉及基于加权核规范正则化算法的lncRNA

疾病关联预测方法。

技术介绍

[0002]LncRNA从基因组翻译而来的,它是由200多个核苷酸组成的内源性RNA且几乎没有蛋白质编译能力。不同种类的非编码RNAs占人类基因组的98%,但它被视为“转录噪声”。然而,近年来大量的实验证据表明:lncRNA在表观遗传调控、蛋白质转运、细胞发育生长等许多关键的生物学过程中发挥着重要作用。LncRNA的失调和突变与肾癌和前列腺癌、结肠癌等许多复杂疾病的发生密切相关。LncRNA PCA3已被证实与前列腺癌侵袭的形成有关,而lncRNA UCA1可用于膀胱癌的诊断。目前,由于对lncRNA

疾病关联的鉴定研究有两种:生物实验验证和计算方法预测。但利用传统的生物学实验研究lncRNA与疾病的影响机制和相互作用是费时费力的。因此,有效地探索lncrna与疾病之间的潜在关联具有十分重要的紧迫性和重要意义。
[0003]越来越多的科学家试图使用计算方法,以更有效、更低的成本揭示潜在的lncRNA

疾病关联。这可能有助于加快潜在的药物靶点和生物标志物的发现,从而促进复杂疾病的诊断和治疗。许多预测潜在lncRNA

疾病关联的计算方法已经被提出,并在生物实验数据验证中展示出良好的预测性能。当前存在的lncRNA/>‑
疾病关联预测方法大体可分为三类:机器学习方法、基于网络传播的方法和矩阵补全方法。
[0004]基于分类器训练的机器学习方法广泛用于生物信息研究领域,常见的应用于lncRNA

疾病关联预测的机器学习算法有很多,例如支持向量机和贝叶斯分类器、随机森林。但是多数机器学习方法需要负样本作为训练集,这将显着影响其预测性能。因为负样本通常难以获得。另一方面大多数机器学习方法在超参数选择和生物特征选择以训练分类器方面存在问题。随着对机器学习领域中的深度学习研究越来越深入,越来越多的研究人员将深度学习应用于lncRNA

疾病关联预测问题的研究。深度学习中的神经网络能够从生物实体的高维特征中挖掘准备的低纬表示,这使得其可以获得高效的预测结果。但是这些方法没有充分利用相似性网络中的丰富信息,最终影响lncRNA和疾病特征表示的质量。
[0005]基于网络传播的方法基于相似的lncRNA通常倾向于与相似的疾病相关的假设。生物网络的方法大多数是在已建立的异构网络上进行随机游走,即以异构网络中的底层拓扑信息为基础进行关联预测.因此,预测结果可能倾向于与更多已知疾病相关的lncRNA和与更多已知lncRNA相关的疾病,同时随机游走算法中所利用的刚性领域关系将影响分子特征信息的丰富度。
[0006]矩阵补全方法对已知的lncRNA

疾病关联矩阵中的未知条目进行补充是基于未知的关联条目可以从已知的关联条目中得到的假设。但已有的研究表明,具有相似结构的生物大分子在大多数情况下并不表现相同的功能。已知的相关信息的缺乏将显著影响矩阵补全方法的预测性能。同时,很多矩阵补全方法均隐式地基于所用的数据源都与预测目标有
相同相关性的假设,且没有对不同数据源的质量进行区分,这将导致预测性能受到数据源噪声的严重影响。矩阵补全方法在对低秩矩阵进行补全时对每个关联信息赋予了同样的重要性,这将忽略关联的潜在主方向信息,从而使得模型不够灵活解决补全问题。
[0007]潜在的lncRNA

疾病关联的发现无疑对了解疾病发病机制和开发人类疾病的治疗方法的研究有很大的帮助。因此发展计算方法来揭示lncRNA与疾病的未知关联,不仅有利于了解lncRNA在人类疾病的病理和分子变化中的主要功能,也有助于复杂疾病的预后、治疗和预防。由于目前的方法并未能充分利用特征的相似性信息,且无法灵活解决补全问题,本专利技术为了lncRNA

疾病关联预测提出了新的方法。

技术实现思路

[0008]本专利技术提供基于加权核规范正则化算法的lncRNA

疾病关联预测方法,更好地预测lncRNA

疾病的关联。
[0009]为解决上述技术问题,本专利技术的技术方案如下:
[0010]基于加权核规范正则化算法的lncRNA

疾病关联预测方法,包括以下步骤:
[0011]S1:获取lncRNA

疾病邻接矩阵LD,所述lncRNA

疾病邻接矩阵用于描述lncRNA

疾病关联关系;
[0012]S2:计算lncRNA表达相似性LS
exp
、lncRNA功能相似性LS
fun
、lncRNA高斯相似性LS
gau
、lncRNA线性邻域相似性LS
lin
、疾病语义相似性DS
sem
、疾病高斯相似性DS
gau
、疾病线性邻域相似性DS
lin

[0013]S3:采用k

近邻中心核对齐算法将lncRNA和疾病的相似性分别整合到同一空间,得到lncRNA和疾病的最优相似核矩阵LS和DS;
[0014]S4:利用lncRNA

疾病关联矩阵、lncRNA和疾病的最优相似性核矩阵构建一个异构矩阵;
[0015]S5:将异构矩阵输入加权核规范正则化模型中进行补全,最终得到预测的lncRNA

疾病的关联。
[0016]优选地,步骤S1中lncRNA

疾病邻接矩阵LD,具体为:
[0017]从LncRNADisease v2.0(http://www.rnanut.net/lncrnadisease/)和Lnc2Cancer3.0数据库中下载lncRNA

疾病关联数据。在删除重复的lncRNA和疾病后,用更广泛的类别替换没有相关注释的术语后。本方法构建了一个邻接矩阵LD∈R
nL
×
nD
来表示lncRNA与疾病之间的关联,其中nL和nD表示lncRNA与疾病的数量。如果确认一个lncRNA与一种疾病相关,则LD(i,j)设置为1,否则LD(i,j)设置为0。
[0018]优选地,步骤S2中lncRNA表达相似性LS
exp
,具体为:
[0019]本方法下载了53种人体组织和细胞类型中的约5万份lncRNA表达谱,形成了一个数据集。通过计算每个lncRNA对表达谱之间的spearman相关系数来表示lncRNA的表达相似性,用矩阵LS
exp
(L
i
,L
j
)来描述lncRNA本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于加权核规范正则化算法的lncRNA

疾病关联预测方法,其特征在于,包括以下步骤:S1:获取lncRNA

疾病邻接矩阵LD,所述lncRNA

疾病邻接矩阵用于描述lncRNA

疾病关联关系;S2:计算lncRNA表达相似性LS
exp
、lncRNA功能相似性LS
fun
、lncRNA高斯相似性LS
gau
、lncRNA线性邻域相似性LS
lin
、疾病语义相似性DS
sem
、疾病高斯相似性DS
gau
、疾病线性邻域相似性DS
lin
;S3:采用k

近邻中心核对齐算法将lncRNA和疾病的相似性分别整合到同一空间,得到lncRNA和疾病的最优相似核矩阵LS和DS;S4:利用lncRNA

疾病关联矩阵、lncRNA和疾病的最优相似性核矩阵构建一个异构矩阵;S5:将异构矩阵输入加权核规范正则化模型中进行补全,最终得到预测的lncRNA

疾病的关联。2.根据权利要求1所述的基于加权核规范正则化算法的lncRNA

疾病关联预测方法,其特征在于,步骤S1中lncRNA

疾病邻接矩阵LD,具体为:从LncRNADisease v2.0和Lnc2Cancer 3.0数据库中下载lncRNA

疾病关联数据;在删除重复的lncRNA和疾病后,并把没有相关注释的类别术语用其更广泛的类别术语进行代替;本方法构建了一个邻接矩阵LD∈R
nL
×
nD
来表示lncRNA与疾病之间的关联,其中nL和nD表示lncRNA与疾病的数量;如果确认一个lncRNA与一种疾病相关,则LD(i,j)设置为1,否则LD(i,j)设置为0。3.根据权利要求1所述的基于加权核规范正则化算法的lncRNA

疾病关联预测方法,其特征在于,步骤S2中lncRNA表达相似性LS
exp
,具体为:本方法下载了53种人体组织和细胞类型中的约5万份lncRNA表达谱,形成了一个数据集;通过计算每个lncRNA对表达谱之间的spearman相关系数来表示lncRNA的表达相似性,用矩阵LS
exp
(L
i
,L
j
)来描述lncRNA L
i
和lncRNA L
j
的表达相似性,相似性取值在0到1之间。4.根据权利要求1所述的基于加权核规范正则化算法的lncRNA

疾病关联预测方法,其特征在于,步骤S2中lncRNA功能相似性LS
fun
,具体为:如果一个包含m个疾病的疾病集D和一个包含n个疾病的疾病集D'分别与lncRNA L
i
和L
j
相关,则lncRNA L
i
和L
j
之间的功能相似度LS
fun
(L
i
,L
j
)可以通过计算与它们分别相关的两组疾病之间的相似性,从而定量计算出两种lncRNAs之间的功能相似性。5.根据权利要求1所述的基于加权核规范正则化算法的lncRNA

疾病关联预测方法,其特征在于,步骤S2中lncRNA高斯相似性LS
gau
,具体为:高斯核相似度也称为径向基函数核相似度;向量Q(L
i
)表示高斯核特征向量中的第i行向量;可以通过计算节点网络中不同节点之间的欧氏距离,求得节点之间的相似性权值得到lncRNA之间的高斯核相似度LS
gau
;步骤S2中lncRNA线性邻域相似性LS
lin
,具体为:每个数据节点及其邻居节点都倾向于位于局部线性片段处或附近,可以使用线性系数来表征这些线性片段的局部几何形状;因此,本方法利用线性系数来重构邻域内的数据点;可以利用标准二次规划得到重构的线性系数;最后,很容易得到lncRNA的线性系数矩阵
LS
lin
∈R
nL
×
nL
,可以作为lncRNA的线性邻域相似度;步骤S2中疾病语义相似性DS
sem
,具体为:采用有向无环图(DAG)计算疾病间的语义相似度;DAG是基于MeSH描述信息;构建的,可从National Library of Medicine下载;定义DAG(D
i
)=(T(D
i
),E(D
i
))以描述疾病D
i
的DAG,其中T(D
i
)为疾病D
i
与其自身祖先节点E(D
i
)之间对应的连接边;先计算DAG(D
i
)中疾病D
i
的语义相似度SV(...

【专利技术属性】
技术研发人员:顾国生许浩杰谢国波林志毅陈锐滨余俊锐
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1