当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于关联规则挖掘的非编码RNA与疾病关系预测方法技术

技术编号:19215894 阅读:32 留言:0更新日期:2018-10-20 06:47
本发明专利技术涉及一种知识图谱中基于关联规则挖掘的非编码RNA与疾病关系预测方法,首先基于超几何分布方法的ncRNA‑疾病关联预测:接着基于聚类的ncRNA功能相似性研究:本发明专利技术能根据miRNA‑disease关联数据与ncRNA‑miRNA相互作用数据,精确高效地预测出于疾病发生发展具有显著相关的ncRNA。

【技术实现步骤摘要】
一种基于关联规则挖掘的非编码RNA与疾病关系预测方法
本专利技术涉及机器学习与生物基因结合领域,特别是一种基于关联规则挖掘的非编码RNA与疾病关系预测方法。
技术介绍
非编码RNA(Non-codingRNA)是指不编码蛋白质的RNA。目前有关报道提出,许多RNA之间存在着一个复杂的相互调控关系,包括蛋白质编码RNA(mRNA)和非编码RNA,例如lncRNA(长链非编码RNA)、假基因和间接RNA,以及新型circRNA。这些RNA转录物不仅参与基因调控,同时也影响着复杂疾病诊断和治疗。它们除了参与基因表达调控外,也能作为ceRNA相互竞争miRNA(小分子RNA,从而影响相互间的调控和“交流”。研究充分证明lncRNA和circRNA(环状RNA分子)与疾病的发生存在关联,尤其是circRNA在miRNA水平的微调上起着非常重要的作用,并能很好的作为疾病新型生物标志。所以,理解ceRNA机制(竞争性内源RNA,RNA间相互作用的新机制)将有利于基因调控网络研究,同时对人类发展和疾病有着重要的意义。现在的研究证明lncRNA和miRNA、circRNA和miRNA之间存在相互作用关系。通过ncRNA与miRNA的相互作用数据以及miRNA-disease关联数据推断出与疾病相关的lncRNA和circRNA。如今,有关lncRNA与疾病关联的数据库已有不少,而对于新型circRNA,还处于起步阶段,这方面的数据少之又少。lncRNA和circRNA都与miRNA存在相互作用关系,它们可以通过竞争性地结合miRNA来调节基因表达,通过miRNA可以间接研究circRNA和lncRNA的功能相似性,随后通过disease-lncRNA关联数据推断潜在的disease-circRNA的关联关系,这具有重大生物意义。通过这种基于miRNA和ncRNA关联规则的挖掘,预测与疾病相关的ncRNA,它们可能用作疾病诊断的指示剂,或作为治疗目的的抑制剂,为今后疾病的研究以及治疗找到新的途径。而ncRNA分子功能富集研究,可以帮助了解这些功能相似的ncRNA可能影响的生物功能,可快速聚焦到研究疾病密切相关的重要分子上,为后续实验验证提供方向和依据,如果能得到预期的实验结果,就能从RNA分子层面阐释基因的功能现象。总之,该项研究揭示了ncRNA这一神秘分子,有助于lncRNA和circRNA的功能诊断,为预测与疾病相关的ncRNA分子找到新的途径,也为未来的精准医疗提供指导。
技术实现思路
有鉴于此,本专利技术的目的是提出一种基于关联规则挖掘的非编码RNA与疾病关系预测方法,能根据miRNA-disease关联数据与ncRNA-miRNA相互作用数据,精确高效地预测出于疾病发生发展具有显著相关的ncRNA。本专利技术采用以下方案实现:一种基于关联规则挖掘的非编码RNA与疾病关系预测方法,其特征在于:包括以下步骤:步骤S1:基于超几何分布方法的ncRNA-疾病关联预测:通过miRNA-ncRNA相互作用数据以及miRNA-disease关联数据,预测潜在的ncRNA-disease关联关系,并验证结果的准确性;此方法同样适用于circRNA-disease关联关系研究;步骤S2:基于聚类的ncRNA功能相似性研究:在步骤S1的基础上,计算疾病间的相似度表达谱,然后根据miRNA-disease关联数据,计算miRNA的相似度表达谱,最后,根据miRNA-ncRNA相互作用数据,计算ncRNAs间的相似度表达谱,并基于PSO的聚类算法将相似度高的ncRNA聚类一起。进一步地,步骤S1具体包括以下步骤:步骤S11:在选定以及验证过的ncRNA-miRNA相互作用数据和miRNA-disease关联数据的基础上,进行筛选和数据冗余处理;步骤S12:根据步骤S11预处理后的数据,分别建立ncRNA和miRNA、miRNA和disease的关联矩阵;步骤S13:采用富集分析法中的超几何分布法初步预测潜在的ncRNA-disease关联关系,计算每一对ncRNA-disease对的p值,将p值小于设定的阈值的ncRNA-disease对作为前在的ncRNA-disease关联关系;这一步骤涉及到富集分析,而富集分析应用范围非常广,从DiseaseOntology(DO),GeneOntology(GO),KEGG,到ReactomePathway等等。本专利技术以GO富集分析为例,具体介绍一下富集分析。所谓的富集分析,就是挑选出差异基因,有差异基因存在的GO返回一个p-value,小的p值表示差异基因在该GO中出现了富集。GO分析对实验结果有提示的作用,通过差异基因的GO分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。传统的富集分析主要依赖于经典统计学方法,例如卡方检验、Fisher检验、二项检验、超几何检验等。而本文运用到的是超几何分布这么一个概念。超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不归还)。例如:在有N个样本,其中M个是不及格的。超几何分布描述了在该N个样本中抽出n个,其中k个是不及格的机率,公式如下:其中,表示所有在N个样本中抽出n个,而抽出的结果不一样的数目。表示在M个样本中,抽出k个的方法数目。剩下来的样本都是及格的,而及格的样本有N-M个,剩下的抽法便有种。步骤S14:对步骤S13计算出来的p值进行校正,通过p值校正之后的p值小于设定的阈值,则可以认定该对ncRNA-disease具有强关联关系,即为模型的最终预测结果;步骤S15:将模型预测的结果与现有的ncRNA-disease关联数据库中的数据或者查找有关文献进行验证。进一步地,步骤S13中,正是采用了超几何分布的概念,接下来以预测潜在的ncRNA-disease关联关系为例,进行具体阐述。基于ncRNA-miRNA相互作用数据,以及miRNA-disease关联数据,求取每一对ncRNA、disease的p-value,也就是判断每一对ncRNA、disease是否与共同的miRNA相互关联,所述超几何分布法采用下式计算:其中,p表示每一对ncRNA-disease对的的p值,N表示与ncRNA或者disease关联的miRNA的总数;M表示与给定的ncRNA关联的miRNA的数量;L表示与给定的disease关联的miRNA的数量;x即与ncRNA又与disease关联的miRNA的总数。进一步地,所述步骤S14中采用bonferroni校正法或Hochberg校正法对步骤S13计算出来的p值进行校正。计算出来的p-value需要进行校正,也就是控制错误率(FDR)。p-value校正以Benjamini和Hochberg(1995)提出的准则最为流行,它的标准相对来说更宽泛,在实际应用中能够获得更大的功效。通过这种方式,我们可以在错误率很低的情况下找到真正有差异的基因。以下是比较常用的两种P-value校正方法介绍:bonferroni校正:如果在同一数据集上同时检验n个独立的假设,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n本文档来自技高网
...

【技术保护点】
1.一种基于关联规则挖掘的非编码RNA与疾病关系预测方法,其特征在于:包括以下步骤:步骤S1:基于超几何分布方法的ncRNA‑疾病关联预测:通过miRNA‑ncRNA相互作用数据以及miRNA‑disease关联数据,预测潜在的ncRNA‑disease关联关系,并验证结果的准确性;步骤S2:基于聚类的ncRNA功能相似性研究:在步骤S1的基础上,计算疾病间的相似度表达谱,然后根据miRNA‑disease关联数据,计算miRNA的相似度表达谱,最后,根据miRNA‑ncRNA相互作用数据,计算ncRNAs间的相似度表达谱,并基于PSO的聚类算法将相似度高的ncRNA聚类一起。

【技术特征摘要】
1.一种基于关联规则挖掘的非编码RNA与疾病关系预测方法,其特征在于:包括以下步骤:步骤S1:基于超几何分布方法的ncRNA-疾病关联预测:通过miRNA-ncRNA相互作用数据以及miRNA-disease关联数据,预测潜在的ncRNA-disease关联关系,并验证结果的准确性;步骤S2:基于聚类的ncRNA功能相似性研究:在步骤S1的基础上,计算疾病间的相似度表达谱,然后根据miRNA-disease关联数据,计算miRNA的相似度表达谱,最后,根据miRNA-ncRNA相互作用数据,计算ncRNAs间的相似度表达谱,并基于PSO的聚类算法将相似度高的ncRNA聚类一起。2.根据权利要求1所述的一种基于关联规则挖掘的非编码RNA与疾病关系预测方法,其特征在于:步骤S1具体包括以下步骤:步骤S11:在选定以及验证过的ncRNA-miRNA相互作用数据和miRNA-disease关联数据的基础上,进行筛选和数据冗余处理;步骤S12:根据步骤S11预处理后的数据,分别建立ncRNA和miRNA、miRNA和disease的关联矩阵;步骤S13:采用富集分析法中的超几何分布法初步预测潜在的ncRNA-disease关联关系,计算每一对ncRNA-disease对的p值,将p值小于设定的阈值的ncRNA-disease对作为前在的ncRNA-disease关联关系;步骤S14:对步骤S13计算出来的p值进行校正,通过p值校正之后的p值小于设定的阈值,则可以认定该对ncRNA-disease具有强关联关系,即为模型的最终预测结果;步骤S15:将模型预测的结果与现有的ncRNA-disease关联数据库中的数据或者查找有关文献进行验证。3.根据权利要求2所述的一种基于关联规则挖掘的非编码RNA与疾病关系预测方法,其特征在于:步骤S13中,所述超几何分布法采用下式计算...

【专利技术属性】
技术研发人员:郑相涵吴玲婷杨旸郭文忠
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1