一种lncRNA-蛋白质相互作用预测方法及其相关设备技术

技术编号:38998624 阅读:11 留言:0更新日期:2023-10-07 10:30
本申请实施例属于数字医疗技术领域,应用于lncRNA与蛋白质间相互作用预测场景中,涉及一种lncRNA

【技术实现步骤摘要】
一种lncRNA

蛋白质相互作用预测方法及其相关设备


[0001]本申请涉及数字医疗
,应用于lncRNA与蛋白质间相互作用预测场景中,尤其涉及一种lncRNA

蛋白质相互作用预测方法及其相关设备。

技术介绍

[0002]随着计算机行业和人工智能的发展、大数据时代来临,传统的医疗方式也逐渐向数字医疗方面进行转化。Long noncoding RNA(LncRNA)是一类长度大于200nt的长链非编码RNA,是非编码基因组的重要组成部分。大量研究表明,lncRNAs参与了多种生物学过程,包括DNA甲基化、组蛋白修饰、RNA转录后调控和蛋白质翻译调控等,并且参与了各种生理和病理过程的调节。
[0003]因此,预测潜在的lncRNA

蛋白质相互作用对于疾病预防和治疗是非常重要的,lncRNA

蛋白质相互作用预测,为热点研究领域如肿瘤生物学和新冠病毒的研究提供了新的参考。现有的方法中,有基于序列相似度或者基于已有的标签进行预测的方法,但这两类方法都是分开进行预测的过程,降低了已知信息利用的有效性和协同性。

技术实现思路

[0004]本申请实施例的目的在于提出一种lncRNA

蛋白质相互作用预测方法及其相关设备,以解决现有技术在预测潜在的lncRNA

蛋白质相互作用时无法合理有效且协同利用已知信息的问题。
[0005]为了解决上述技术问题,本申请实施例提供lncRNAr/>‑
蛋白质相互作用预测方法,采用了如下所述的技术方案:
[0006]一种lncRNA

蛋白质相互作用预测方法,包括下述步骤:
[0007]获取待进行相互作用预测的N个序列组,其中,每个序列组中都包含lncRNA序列以及蛋白质序列,N为正整数;
[0008]根据所述N个序列组中的lncRNA序列,构建基于lncRNA相似度的序列组关联图,作为第一关联图;
[0009]根据所述N个序列组中的蛋白质序列,构建基于蛋白质相似度的序列组关联图,作为第二关联图;
[0010]使用预设的相互作用预测模型中的图自编码器分别对所述第一关联图和所述第二关联图进行关联图重构,获取所述第一关联图和所述第二关联图分别对应的目标矩阵,其中,所述预设的相互作用预测模型预先根据已知相互作用的序列组训练而成;
[0011]基于所述第一关联图和所述第二关联图分别对应的目标矩阵,拼接每个序列组中lncRNA序列所对应的嵌入向量和蛋白质序列所对应的嵌入向量,获取组表征向量;
[0012]将每个序列组对应的组表征向量输入到所述相互作用预测模型的预测器内,得到每个序列组中lncRNA序列和蛋白质序列的预测结果,其中,所述预测结果为存在相互作用或者不存在相互作用。
[0013]为了解决上述技术问题,本申请实施例还提供lncRNA

蛋白质相互作用预测装置,采用了如下所述的技术方案:
[0014]一种lncRNA

蛋白质相互作用预测装置,包括:
[0015]待测序列组获取模块,用于获取待进行相互作用预测的N个序列组,其中,每个序列组中都包含lncRNA序列以及蛋白质序列,N为正整数;
[0016]第一关联图构建模块,用于根据所述N个序列组中的lncRNA序列,构建基于lncRNA相似度的序列组关联图,作为第一关联图;
[0017]第二关联图构建模块,用于根据所述N个序列组中的蛋白质序列,构建基于蛋白质相似度的序列组关联图,作为第二关联图;
[0018]图自编码器编码模块,用于使用预设的相互作用预测模型中的图自编码器分别对所述第一关联图和所述第二关联图进行关联图重构,获取所述第一关联图和所述第二关联图分别对应的目标矩阵,其中,所述预设的相互作用预测模型预先根据已知相互作用的序列组训练而成;
[0019]组表征向量获取模块,用于基于所述第一关联图和所述第二关联图分别对应的目标矩阵,拼接每个序列组中lncRNA序列所对应的嵌入向量和蛋白质序列所对应的嵌入向量,获取组表征向量;
[0020]预测器预测模块,用于将每个序列组对应的组表征向量输入到所述相互作用预测模型的预测器内,得到每个序列组中lncRNA序列和蛋白质序列的预测结果,其中,所述预测结果为存在相互作用或者不存在相互作用。
[0021]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0022]一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述所述的lncRNA

蛋白质相互作用预测方法的步骤。
[0023]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
[0024]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的lncRNA

蛋白质相互作用预测方法的步骤。
[0025]与现有技术相比,本申请实施例主要有以下有益效果:
[0026]本申请实施例所述lncRNA

蛋白质相互作用预测方法,通过获取待进行相互作用预测的N个序列组;根据N个序列组中的lncRNA序列,构建第一关联图;根据N个序列组中的蛋白质序列,构建第二关联图;使用预设的相互作用预测模型中的图自编码器分别对第一关联图和第二关联图进行关联图重构,获取第一关联图和第二关联图分别对应的目标矩阵;基于第一关联图和第二关联图分别对应的目标矩阵,拼接每个序列组中lncRNA序列和蛋白质序列分别所对应的嵌入向量,获取组表征向量;将每个序列组对应的组表征向量输入到相互作用预测模型的预测器内,预测每个序列组中lncRNA序列和蛋白质序列是否存在相互作用。本申请通过采用协同训练方式分别对lncRNA序列和蛋白质序列进行图自编码器训练,再结合lncRNA序列和蛋白质序列间的组表征向量进行预测器训练,使得训练和预测
ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
[0044]服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
[0045]需要说明的是,本申请实施例所提供的lncRNA

蛋白质相互作用预测方法一般由服务器/终端设备执行,相应地,lncRNA

蛋白质相互作用预测装置一般设置于服务器/终端设备中。
[0046]应该理解,图1中的终端设备、网络和服务本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种lncRNA

蛋白质相互作用预测方法,其特征在于,包括下述步骤:获取待进行相互作用预测的N个序列组,其中,每个序列组中都包含lncRNA序列以及蛋白质序列,N为正整数;根据所述N个序列组中的lncRNA序列,构建基于lncRNA相似度的序列组关联图,作为第一关联图;根据所述N个序列组中的蛋白质序列,构建基于蛋白质相似度的序列组关联图,作为第二关联图;使用预设的相互作用预测模型中的图自编码器分别对所述第一关联图和所述第二关联图进行关联图重构,获取所述第一关联图和所述第二关联图分别对应的目标矩阵,其中,所述预设的相互作用预测模型预先根据已知相互作用的序列组训练而成;基于所述第一关联图和所述第二关联图分别对应的目标矩阵,拼接每个序列组中lncRNA序列所对应的嵌入向量和蛋白质序列所对应的嵌入向量,获取组表征向量;将每个序列组对应的组表征向量输入到所述相互作用预测模型的预测器内,得到每个序列组中lncRNA序列和蛋白质序列的预测结果,其中,所述预测结果为存在相互作用或者不存在相互作用。2.根据权利要求1所述的lncRNA

蛋白质相互作用预测方法,其特征在于,所述根据所述N个序列组中的lncRNA序列,构建基于lncRNA相似度的序列组关联图的步骤,具体包括:对每个序列组中的lncRNA序列进行分段处理,分别获取M个lncRNA子序列,其中,M为正整数;通过编辑距离法依次计算不同序列组中所包含的M个lncRNA子序列之间的序列相似度;根据不同序列组中所包含的M个lncRNA子序列之间的序列相似度,构建所述基于lncRNA相似度的序列组关联图;所述根据所述N个序列组中的蛋白质序列,构建基于蛋白质相似度的序列组关联图的步骤,具体包括:采用局部序列对比算法依次计算不同序列组中所包含的蛋白质序列间的序列相似度;根据不同序列组中所包含的蛋白质序列间的序列相似度,构建所述基于蛋白质相似度的序列组关联图。3.根据权利要求2所述的lncRNA

蛋白质相互作用预测方法,其特征在于,所述通过编辑距离法依次计算不同序列组中所包含的M个lncRNA子序列之间的序列相似度的步骤,具体包括:步骤501,两两组合所述不同序列组中的lncRNA序列,获取lncRNA序列对比组,其中,每个lncRNA序列对比组中包含的两条lncRNA序列,分别为第一lncRNA序列和第二lncRNA序列;步骤502,获取当前lncRNA序列对比组中第一lncRNA序列和第二lncRNA序列分别对应的M个lncRNA子序列;步骤503,根据当前lncRNA序列对比组中第一lncRNA序列和第二lncRNA序列分别对应的M个lncRNA子序列,以及所述编辑距离法,计算所述第一lncRNA序列转化为所述第二lncRNA序列所需的最小编辑距离;
步骤504,根据所述最小编辑距离,确定当前lncRNA序列对比组中第一lncRNA序列和第二lncRNA序列间的相似度,其中,所述最小编辑距离与所述相似度为负相关关系,即所述最小编辑距离越小,所述相似度越大;步骤505,依次将不同lncRNA序列对比组作为当前lncRNA序列对比组,并重复执行步骤502至步骤504,确定不同lncRNA序列对比组中第一lncRNA序列和第二lncRNA序列间的相似度;所述根据不同序列组中所包含的M个lncRNA子序列之间的序列相似度,构建所述基于lncRNA相似度的序列组关联图的步骤,具体包括:步骤601,预先设置与所述不同序列组数量相等的N个关联节点,其中,每个关联节点代表一个序列组;步骤602,判断当前lncRNA序列对比组中第一lncRNA序列和第二lncRNA序列间的相似度是否满足预设的第一相似度阈值;步骤603,若当前lncRNA序列对比组中第一lncRNA序列和第二lncRNA序列间的相似度不满足预设的第一相似度阈值,则重新设定当前lncRNA序列对比组,继续执行步骤602;步骤604,若当前lncRNA序列对比组中第一lncRNA序列和第二lncRNA序列间的相似度满足预设的第一相似度阈值,则对所述第一lncRNA序列和第二lncRNA序列分别对应的关联节点构建节点连线,并重新设定当前lncRNA序列对比组,继续执行步骤602;步骤605,直到所有lncRNA序列对比组都已被设定为当前lncRNA序列对比组,停止执行步骤602,获取所述N个关联节点间的节点连线作为所述基于lncRNA相似度的序列组关联图。4.根据权利要求3所述的lncRNA

蛋白质相互作用预测方法,其特征在于,所述采用局部序列对比算法依次计算不同序列组中所包含的蛋白质序列间的序列相似度的步骤,具体包括:步骤701,两两组合所述不同序列组中的蛋白质序列,获取蛋白质序列对比组,其中,每个蛋白质序列对比组中包含的两条蛋白质序列,分别为第一蛋白质序列和第二蛋白质序列;步骤702,根据所述局部序列对比算法,识别出当前蛋白质序列对比组中第一蛋白质序列和第二蛋白质序列间的相似分子结构区域,获取识别结果,其中,所述局部序列对比算法为Smith

Waterman算法,所述Smith

Waterman算法用于识别出两个蛋白质序列之间的相似分子结构区域;步骤703,通过预设的打分方法对所述识别结果进行打分,获取打分结果,其中,所述预设的打分方法为BLOSUM62矩阵打分方法,所述BLOSUM62矩阵打分方法用于对Smith

Waterman算法识别出的两个蛋白质序列之间的相似分子结构区域进行相似性评估;步骤704,将所述打分结果设置为当前蛋白质序列对比组中第一蛋白质序列和第二蛋白质序列的相似度;步骤705,依次将不同蛋白质序列对比组作为当前蛋白质序列对比组,并重复执行步骤702至步骤704,确定不同蛋白质序列对比组中第一蛋白质序列和第二蛋白质序列间的相似度;所述根据不同序列组中所包含的蛋白质序列间的序列相似度,构建所述基于蛋白质相
似度的序列组关联图的步骤,具体包括:步骤801,判断当前...

【专利技术属性】
技术研发人员:刘小双
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1