当前位置: 首页 > 专利查询>湘潭大学专利>正文

基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统技术方案

技术编号:19635391 阅读:38 留言:0更新日期:2018-12-01 16:04
本发明专利技术公开了一种基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法,包括:根据已知的MiRNA与疾病关联关系、MiRNA与LncRNA关联关系以及LncRNA与疾病关联关系的数据集构建基于三者关联关系的复杂网络;在复杂网络中找出LncRNA节点与疾病节点的共同邻居节点;基于朴素贝叶斯的概率模型计算有共同邻居节点的LncRNA节点与疾病节点相连的概率,得到LncRNA节点与疾病节点对的相似度值。本发明专利技术整合多个数据库的多个关联关系,从而在构建的复杂网络中给待预测的LncRNA节点与疾病节点建立了更多的连接,从而提高LncRNA与疾病关联关系的预测效果。

Prediction method and system of the association between LncRNA and disease based on Naive Bayesian

The invention discloses a method for predicting the association relationship between LncRNA and disease based on Naive Bayes, which includes: constructing a complex network based on the three association relationships according to the known data sets of the association relationship between MiRNA and disease, MiRNA and LncRNA, and LncRNA and disease; finding LncRNA sections in a complex network; Based on Naive Bayesian probabilistic model, the probability of LncRNA nodes with common neighbors connecting to disease nodes is calculated, and the similarity between LncRNA nodes and disease nodes is obtained. The invention integrates multiple association relationships of multiple databases, thereby establishing more connections between LncRNA nodes to be predicted and disease nodes in a complex network, thereby improving the prediction effect of the relationship between LncRNA and disease.

【技术实现步骤摘要】
基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统
本专利技术涉及生物信息学中的关联预测领域,尤其涉及基于朴素贝叶斯的LncRNA(LongNoncodingRNA,长链非编码RNA)与疾病的关联关系预测方法及系统。
技术介绍
人类基因组中仅有1.5%左右是负责蛋白质编码的基因,这意味着超过98%的人类基因组不编码蛋白质序列。研究发现LncRNA在人类的生理变化以及各种复杂人类疾病(肺癌、结肠癌、阿尔茨海默氏症的疾病等)产生中扮演了重要的角色,例如基因组的印记、细胞分化变异、免疫应对、肿瘤发生等。特别地,基于生物学方面的各种关联数据集开发出合适的计算模型去预测LncRNA与疾病之间关联关系具有十分重要的理论价值和现实意义。近年来越来越多的计算模型被成功的应用于预测与疾病相关联LncRNA,能够有效地促进人们对复杂疾病基础层面的认识。而在LncRNA与疾病关联关系的预测研究,大部分都依赖于已知的LncRNA与疾病的关联关系,且采用生物实验方法预测有许多瓶颈,如实验周期漫长,设备要求高、成本高等,这对研究者工作者想要在短时间内获得实验结果造成了障碍。因此本专利技术从多个数据集整理多个关联关系去预测LncRNA与疾病的关联关系,而MiRNA与疾病、基因与疾病的关联关系研究已经非常成熟,所以通过整合MiRNA(MicroRNA,微小核糖核酸)与疾病的关联关系、基因与疾病的关联关系对LncRNA与疾病的关联关系预测是十分必要的。
技术实现思路
本专利技术目的在于提供一种基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统,以解决生物实验方法预测LncRNA与疾病关联关系实验周期漫长、设备要求高以及成本高的技术问题。为实现上述目的,本专利技术提供了一种基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法,包括以下步骤:S1:根据已知的MiRNA与疾病关联关系、MiRNA与LncRNA关联关系以及LncRNA与疾病关联关系的数据集构建基于三者关联关系的复杂网络;S3:在复杂网络中找出LncRNA节点与疾病节点的共同邻居节点;S4:基于朴素贝叶斯的概率模型计算有共同邻居节点的LncRNA节点与疾病节点相连的概率,得到LncRNA节点与疾病节点对的相似度值。作为本专利技术的方法的进一步改进:步骤S1包括以下步骤:S101:从已知数据库中下载:MiRNA与疾病关联关系和MiRNA与LncRNA关联关系;S102:筛选出MiRNA与疾病关联关系和MiRNA与LncRNA关联关系中的共有MiRNA集,提取出共有MiRNA与疾病关联关系和共有MiRNA与LncRNA关联关系;S103:将共有MiRNA集、共有MiRNA与疾病关联关系和共有MiRNA与LncRNA关联关系三者固定的第一LncRNA与疾病关联关系,与已知数据库中的第二LncRNA与疾病关联关系进行筛选比对,筛选得到第三LncRNA与疾病关联关系;S104:根据第三LncRNA-疾病关联关系、共有MiRNA与LncRNA关联关系、共有MiRNA与疾病关联关系将LncRNA节点、共有MiRNA节点和疾病节点在网络中连线,构建基于三者关联关系的复杂网络。步骤S102和步骤S103中,进行筛选之前,先将来自不同数据库中的MiRNA的命名、LncRNA的命名以及疾病的命名进行统一。步骤S101完成后,S102进行前,删除MiRNA与疾病关联关系以及MiRNA与LncRNA关联关系的数据集中的重复数据与错误数据。步骤S4中的相似度值,采用如下公式进行计算:其中,φm表示对于任意两个潜在的异类节点对,φm的值是一个实数且相等;分别表示共同邻居节点包括的两个异类节点Vl,Vd已知关联、无关联的个数;CN(Vl,Vd)={m1,m2,…,mn},是Vl、Vd的共同邻居节点集合。相似度值的计算满足条件:共同邻居集合中的每个特征向量条件独立。作为一个总的技术构思,本专利技术还提供了一种基于朴素贝叶斯的LncRNA与疾病的关联关系预测系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。本专利技术具有以下有益效果:本专利技术的基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统,不基于已知的单一数据库的LncRNA与疾病关联关系,而是可整合多个数据库的多个关联关系,从而在构建的复杂网络中给待预测的LncRNA节点与疾病节点建立了更多的连接,从而提高LncRNA与疾病关联关系的预测效果。可为研究人员提供一定的参考信息,大大减少了实验的工作量。除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参照附图,对本专利技术作进一步详细的说明。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法的流程示意图;图2是本专利技术实施例2中的基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法的流程示意图;图3是本专利技术实施例2中的假设其中某一对待预测的lncRNA-疾病节点对的每个共同邻居的局部子图。具体实施方式以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。参见图1,本专利技术的基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法,包括以下步骤:S1:根据已知的MiRNA与疾病关联关系、MiRNA与LncRNA关联关系以及LncRNA与疾病关联关系的数据集构建基于三者关联关系的复杂网络;S3:在复杂网络中找出LncRNA节点与疾病节点的共同邻居节点;S4:基于朴素贝叶斯的概率模型计算有共同邻居节点的LncRNA节点与疾病节点相连的概率,得到LncRNA节点与疾病节点对的相似度值。以上步骤,不基于已知的单一数据库的LncRNA与疾病关联关系,而是可整合多个数据库的多个关联关系,从而在构建的复杂网络中给待预测的LncRNA节点与疾病节点建立了更多的连接,从而提高LncRNA与疾病关联关系的预测效果。可为研究人员提供一定的参考信息,大大减少了实验的工作量。实施例1:参见图1,本实施例的基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法,包括以下步骤:S1:根据已知的MiRNA与疾病关联关系、MiRNA与LncRNA关联关系以及LncRNA与疾病关联关系的数据集构建基于三者关联关系的复杂网络。步骤S1包括以下步骤:S101:从已知的多个数据库中下载:MiRNA与疾病关联关系和MiRNA与LncRNA关联关系;删除MiRNA与疾病关联关系以及MiRNA与LncRNA关联关系的数据集中的重复数据与错误数据。S102:先将来自不同数据库中的MiRNA的命名、LncRNA的命名以及疾病的命名进行统一。筛选出MiRNA与疾病关联关系和MiRNA与LncRNA关联关系中的共有MiRNA集,提取出共有MiRNA与疾病关联关系和共有MiRNA与LncRNA关联关系;S103:将共有MiRNA集、共有MiRNA与疾病关联关系和共有MiRNA与LncRNA关联关系三者固定的第一LncRNA与疾病关联关系,与已知数据库中(将来自不同数据库中LncRNA的本文档来自技高网...

【技术保护点】
1.一种基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法,其特征在于,包括以下步骤:S1:根据已知的MiRNA与疾病关联关系、MiRNA与LncRNA关联关系以及LncRNA与疾病关联关系的数据集构建基于三者关联关系的复杂网络;S3:在所述复杂网络中找出LncRNA节点与疾病节点的共同邻居节点;S4:基于朴素贝叶斯的概率模型计算有共同邻居节点的LncRNA节点与疾病节点相连的概率,得到LncRNA节点与疾病节点对的相似度值。

【技术特征摘要】
1.一种基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法,其特征在于,包括以下步骤:S1:根据已知的MiRNA与疾病关联关系、MiRNA与LncRNA关联关系以及LncRNA与疾病关联关系的数据集构建基于三者关联关系的复杂网络;S3:在所述复杂网络中找出LncRNA节点与疾病节点的共同邻居节点;S4:基于朴素贝叶斯的概率模型计算有共同邻居节点的LncRNA节点与疾病节点相连的概率,得到LncRNA节点与疾病节点对的相似度值。2.根据权利要求1所述的基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法,其特征在于,所述步骤S1包括以下步骤:S101:从已知数据库中下载:MiRNA与疾病关联关系和MiRNA与LncRNA关联关系;S102:筛选出所述MiRNA与疾病关联关系和MiRNA与LncRNA关联关系中的共有MiRNA集,提取出共有MiRNA与疾病关联关系和共有MiRNA与LncRNA关联关系;S103:将所述共有MiRNA集、共有MiRNA与疾病关联关系和共有MiRNA与LncRNA关联关系三者固定的第一LncRNA与疾病关联关系,与已知数据库中的第二LncRNA与疾病关联关系进行筛选比对,筛选得到第三LncRNA与疾病关联关系;S104:根据所述第三LncRNA-疾病关联关系、共有MiRNA与LncRNA关联关系、共有MiRNA与疾病关联关系将LncRNA节点、共有MiRNA节点和疾病节点在网络中...

【专利技术属性】
技术研发人员:王雷喻景雯匡林爱冯湘轩占伟
申请(专利权)人:湘潭大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1