非编码RNA和疾病关联性数据处理方法及数据库系统技术方案

技术编号:38561532 阅读:11 留言:0更新日期:2023-08-22 21:02
本发明专利技术属于数据处理领域,公开了一种非编码RNA和疾病关联性数据处理方法及数据库系统,包括整合现有非编码RNA和疾病关联性数据库中的非编码RNA数据、疾病数据以及非编码RNA和疾病关联性数据;根据待查询非编码RNA名称,从整合数据中检索目标非编码RNA数据和目标非编码RNA和疾病关联性数据;根据待查询疾病名称,从整合数据中检索目标疾病数据以及目标非编码RNA和疾病关联性数据;以及根据待关联非编码RNA名称,基于预设的关联性预测模型,得到与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称。完成了现有公开数据集的完备性整理,实现了已有数据库的全覆盖,并且能对未能有效验证的非编码RNA和疾病关联性关系进行有效预测。性关系进行有效预测。性关系进行有效预测。

【技术实现步骤摘要】
非编码RNA和疾病关联性数据处理方法及数据库系统


[0001]本专利技术属于数据处理领域,涉及一种非编码RNA和疾病关联性数据处理方法及数据库系统。

技术介绍

[0002]非编码RNA作为生命体重要调控元件,通过影响染色质修饰、转录靶点的结合、mRNA剪接及蛋白翻译等方式封闭、抑制相关基因的表达,深度参与了胚胎发育、细胞分化、代谢、信号转导、免疫应答、癌症及衰老等几乎所有生理或病理过程的基因表达调控,起到极其重要的作用。非编码RNA长度从22个碱基长度(22nt)到上千个碱基长度不等,涵盖了如链状结构的微小RNA(miRNA),长非编码RNA(lncRNA),以及环状结构的环状RNA(circRNA)等等。虽然如今已有上万个人类非编码RNA的基因被发现,然而研究者们除了对少量非编码RNA了解较为完全外,对大量的非编码RNA由于其复杂的分子作用机制还未完全研究清楚,非编码RNA之间的互相作用关系以及它们和疾病之间的关系也成为当前研究热点。目前,来查询、记录和探索不同非编码RNA以及它们之间和疾病的关系的最直观方式是通过数据库的方式来实现,用户可以搜索不同感兴趣的非编码RNA,寻找不同非编码RNA之间的关联性作用,比较不同非编码RNA和疾病之间的关系,也可以下载相关数据,为后续整合分析提供基础。
[0003]综合来看,目前已有的记录非编码RNA的数据库有以下几种:(1)独立记录不同非编码RNA的数据库,如circBase以及miRBase等数据库,这些数据库分别记录了非编码RNA中的环状RNA(circRNA)或微小RNA(miRNA)的信息,并提供查询下载等功能,但是未能反应不同RNA之间的关联关系以及和疾病之间的互作用。(2)记录非编码RNA和疾病之间关系的数据库,如Circ2Disease,HMDD,miRCancer以及Lnc2Cancer等数据库,这些数据库记载了不同单一非编码RNA和疾病之间的关联关系,然而RNA信息或者多非编码RNA之间的关系存在一定缺失。(3)记录两种非编码RNA和疾病之间关系的数据库,如Lnc2Cancer数据库。Lnc2Cancer数据库记录了lncRNA和circRNA和疾病之间的关联关系,然而多非编码RNA之间的互作用关系未能体现,同时对未记录的非编码RNA与疾病之间的关系无法进一步预测。
[0004]综上所述,现有的非编码RNA和疾病关联性数据库虽已能记录和查询不同非编码RNA以及它们和疾病之间的关联性,但依然有以下几点不足之处。首先,不同非编码RNA,尤其是环状RNA及长非编码RNA存在不同数据库之间的重命名情况,标准不统一,给数据综合性整合分析带来了极大的壁垒,但是现有数据库未能有效进行名称匹配和对齐。其次,已有数据库大多记录了单一或两种非编码RNA的信息,对于三种或三种以上的非编码RNA及其互作用关系缺少整理和关系梳理。最后,不同非编码RNA和疾病之间的关系虽已有数据库进行记录,然而多非编码RNA和疾病之间的关联关系还未能有效探索,尤其是未记录的非编码RNA和疾病之间潜在的关联性作用可以为未来相关研究的开展提供引导方向,但目前数据库普遍缺失这方面的功能。因此,有必要设计专利技术一种功能性覆盖更全面,数据融合度更大的非编码RNA和疾病关联性数据库。

技术实现思路

[0005]本专利技术的目的在于克服上述现有技术中,现有非编码RNA和疾病关联性数据库的覆盖性低且数据融合度较低的缺点,提供一种非编码RNA和疾病关联性数据处理方法及数据库系统。
[0006]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0007]本专利技术第一方面,提供一种非编码RNA和疾病关联性数据处理方法,包括:
[0008]基于多名称匹配和关联性字典方式,整合现有非编码RNA和疾病关联性数据库中的非编码RNA数据、疾病数据以及非编码RNA和疾病关联性数据,得到整合数据并存储;
[0009]获取待查询非编码RNA名称或待查询疾病名称,以及根据待查询非编码RNA名称,从整合数据中检索目标非编码RNA数据和目标非编码RNA和疾病关联性数据;或根据待查询疾病名称,从整合数据中检索目标疾病数据以及目标非编码RNA和疾病关联性数据;
[0010]获取待关联非编码RNA名称,以及根据待关联非编码RNA名称,基于预设的关联性预测模型,得到与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称。
[0011]可选的,还包括可视化目标非编码RNA数据和目标非编码RNA和疾病关联性数据,或可视化目标疾病数据以及目标非编码RNA和疾病关联性数据;以及可视化与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称。
[0012]可选的,所述可视化目标非编码RNA和疾病关联性数据时,基于目标非编码RNA和疾病关联性数据,利用Echarts框架构建关联性图网络进行可视化展示。
[0013]可选的,所述可视化与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称包括:按照关联性可能性大小,以方式一和/或方式二可视化与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称;其中,方式一:按照关联性可能性大小从大到小的顺序,以表格的形式可视化展示与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称;方式二:按照关联性可能性大小,构建与待关联非编码RNA具有关联性的若干疾病名称的词云图得到第一词云图,以及构建与待关联非编码RNA具有关联性的若干非编码RNA名称的词云图得到第二词云图,并可视化展示第一词云图和第二词云图。
[0014]可选的,还包括当检索到目标非编码RNA数据时,生成目标非编码RNA数据的UCSC Genome Browser数据库搜索接口和/或ENBL

EBI数据库搜索接口;当检索到目标疾病数据时,生成目标疾病数据的MalaCards数据库搜索接口。
[0015]可选的,还包括生成与待关联非编码RNA具有关联性的各疾病名称的NCBI数据库超链接。
[0016]可选的,所述关联性预测模型包括数据关联模块、基于transformer结构的知识图谱嵌入模型、多层图卷积网络以及全连接层网络;
[0017]数据关联模块用于根据待关联非编码RNA名称,从整合数据中检索与待关联非编码RNA存在关联关系的非编码RNA或疾病,得到若干关联数据;以及组合待关联非编码RNA名称和各关联数据名称,得到若干关联对;基于transformer结构的知识图谱嵌入模型用于获取各关联对的嵌入表征;多层图卷积网络用于通过聚合邻居节点信息的方式优化各关联对的嵌入表征,得到优化后的各关联对的嵌入表征;全连接层网络用于解码优化后的各关联对的嵌入表征,得到与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称。
[0018]本专利技术第二方面,提供一种非编码RNA和疾病关联性数据库系统,包括通讯连接的云端服务器和前端服务器;云端服务器内设置数据整合模块、搜索模块以及关系预测模块,前端服务器内设置交本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非编码RNA和疾病关联性数据处理方法,其特征在于,包括:基于多名称匹配和关联性字典方式,整合现有非编码RNA和疾病关联性数据库中的非编码RNA数据、疾病数据以及非编码RNA和疾病关联性数据,得到整合数据并存储;获取待查询非编码RNA名称或待查询疾病名称,以及根据待查询非编码RNA名称,从整合数据中检索目标非编码RNA数据和目标非编码RNA和疾病关联性数据;或根据待查询疾病名称,从整合数据中检索目标疾病数据以及目标非编码RNA和疾病关联性数据;获取待关联非编码RNA名称,以及根据待关联非编码RNA名称,基于预设的关联性预测模型,得到与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称。2.根据权利要求1所述的非编码RNA和疾病关联性数据处理方法,其特征在于,还包括可视化目标非编码RNA数据和目标非编码RNA和疾病关联性数据,或可视化目标疾病数据以及目标非编码RNA和疾病关联性数据;以及可视化与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称。3.根据权利要求2所述的非编码RNA和疾病关联性数据处理方法,其特征在于,所述可视化目标非编码RNA和疾病关联性数据时,基于目标非编码RNA和疾病关联性数据,利用Echarts框架构建关联性图网络进行可视化展示。4.根据权利要求2所述的非编码RNA和疾病关联性数据处理方法,其特征在于,所述可视化与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称包括:按照关联性可能性大小,以方式一和/或方式二可视化与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称;其中,方式一:按照关联性可能性大小从大到小的顺序,以表格的形式可视化展示与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称;方式二:按照关联性可能性大小,构建与待关联非编码RNA具有关联性的若干疾病名称的词云图得到第一词云图,以及构建与待关联非编码RNA具有关联性的若干非编码RNA名称的词云图得到第二词云图,并可视化展示第一词云图和第二词云图。5.根据权利要求1所述的非编码RNA和疾病关联性数据处理方法,其特征在于,还包括当检索到目标非编码RNA数据时,生成目标非编码RNA数据的UCSC Genome Browser数据库搜索接口和/或ENBL

EBI数据库搜索接口;当检索到目标疾病数据时,生成目标疾病数据的MalaCards数据库搜索接口。6.根据权利要求1所述的非编码RNA和疾病关联性数据处理方法,其特征在于,还包括生成与待关联非编码RNA具有关联性的各疾病名称的NCBI数据库超链接。7.根据权利要求1所述的非编码RNA和疾病关联性数据处理方法,其特征在于,所述关联性预测模型包括数据关联模块、基于transformer结构的知识图谱嵌入模型、多层图卷积网络以及全连接层网络;数据关联模块用于根据待关联非编码RNA名称,从整合数据中检索与待关联非编码RNA存在关联关系的非编码RNA或疾病,得到若干关联数据;以及组合待关联非编码RNA名称和各关联数据名称,得到若干关...

【专利技术属性】
技术研发人员:付来义武锦阳王莹彭勤科
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1