非编码RNA和疾病关联性数据处理方法及数据库系统技术方案

技术编号：38561532 阅读：11 留言：0更新日期：2023-08-22 21:02

本发明专利技术属于数据处理领域，公开了一种非编码RNA和疾病关联性数据处理方法及数据库系统，包括整合现有非编码RNA和疾病关联性数据库中的非编码RNA数据、疾病数据以及非编码RNA和疾病关联性数据；根据待查询非编码RNA名称，从整合数据中检索目标非编码RNA数据和目标非编码RNA和疾病关联性数据；根据待查询疾病名称，从整合数据中检索目标疾病数据以及目标非编码RNA和疾病关联性数据；以及根据待关联非编码RNA名称，基于预设的关联性预测模型，得到与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称。完成了现有公开数据集的完备性整理，实现了已有数据库的全覆盖，并且能对未能有效验证的非编码RNA和疾病关联性关系进行有效预测。性关系进行有效预测。性关系进行有效预测。

全部详细技术资料下载

【技术实现步骤摘要】
非编码RNA和疾病关联性数据处理方法及数据库系统

[0001]本专利技术属于数据处理领域，涉及一种非编码RNA和疾病关联性数据处理方法及数据库系统。

技术介绍

[0002]非编码RNA作为生命体重要调控元件，通过影响染色质修饰、转录靶点的结合、mRNA剪接及蛋白翻译等方式封闭、抑制相关基因的表达，深度参与了胚胎发育、细胞分化、代谢、信号转导、免疫应答、癌症及衰老等几乎所有生理或病理过程的基因表达调控，起到极其重要的作用。非编码RNA长度从22个碱基长度(22nt)到上千个碱基长度不等，涵盖了如链状结构的微小RNA(miRNA)，长非编码RNA(lncRNA)，以及环状结构的环状RNA(circRNA)等等。虽然如今已有上万个人类非编码RNA的基因被发现，然而研究者们除了对少量非编码RNA了解较为完全外，对大量的非编码RNA由于其复杂的分子作用机制还未完全研究清楚，非编码RNA之间的互相作用关系以及它们和疾病之间的关系也成为当前研究热点。目前，来查询、记录和探索不同非编码RNA以及它们之间和疾病的关系的最直观方式是通过数据库的方式来实现，用户可以搜索不同感兴趣的非编码RNA，寻找不同非编码RNA之间的关联性作用，比较不同非编码RNA和疾病之间的关系，也可以下载相关数据，为后续整合分析提供基础。
[0003]综合来看，目前已有的记录非编码RNA的数据库有以下几种：(1)独立记录不同非编码RNA的数据库，如circBase以及miRBase等数据库，这些数据库分别记录了非编码RNA中的环状RNA(circRNA)或...

【技术保护点】

【技术特征摘要】
1.一种非编码RNA和疾病关联性数据处理方法，其特征在于，包括：基于多名称匹配和关联性字典方式，整合现有非编码RNA和疾病关联性数据库中的非编码RNA数据、疾病数据以及非编码RNA和疾病关联性数据，得到整合数据并存储；获取待查询非编码RNA名称或待查询疾病名称，以及根据待查询非编码RNA名称，从整合数据中检索目标非编码RNA数据和目标非编码RNA和疾病关联性数据；或根据待查询疾病名称，从整合数据中检索目标疾病数据以及目标非编码RNA和疾病关联性数据；获取待关联非编码RNA名称，以及根据待关联非编码RNA名称，基于预设的关联性预测模型，得到与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称。2.根据权利要求1所述的非编码RNA和疾病关联性数据处理方法，其特征在于，还包括可视化目标非编码RNA数据和目标非编码RNA和疾病关联性数据，或可视化目标疾病数据以及目标非编码RNA和疾病关联性数据；以及可视化与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称。3.根据权利要求2所述的非编码RNA和疾病关联性数据处理方法，其特征在于，所述可视化目标非编码RNA和疾病关联性数据时，基于目标非编码RNA和疾病关联性数据，利用Echarts框架构建关联性图网络进行可视化展示。4.根据权利要求2所述的非编码RNA和疾病关联性数据处理方法，其特征在于，所述可视化与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称包括：按照关联性可能性大小，以方式一和/或方式二可视化与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称；其中，方式一：按照关联性可能性大小从大到小的顺序，以表格的形式可视化展示与待关联非编码RNA具有关联性的若干非编码RNA名称和若干疾病名称；方式二：按照关联性可能性大小，构建与待关联非编码RNA具有关联性的若干疾病名称的词云图得到第一词云图，以及构建与待关联非编码RNA具有关联性的若干非编码RNA名称的词云图得到第二词云图，并可视化展示第一词云图和第二词云图。5.根据权利要求1所述的非编码RNA和疾病关联性数据处理方法，其特征在于，还包括当检索到目标非编码RNA数据时，生成目标非编码RNA数据的UCSC Genome Browser数据库搜索接口和/或ENBL
‑
EBI数据库搜索接口；当检索到目标疾病数据时，生成目标疾病数据的MalaCards数据库搜索接口。6.根据权利要求1所述的非编码RNA和疾病关联性数据处理方法，其特征在于，还包括生成与待关联非编码RNA具有关联性的各疾病名称的NCBI数据库超链接。7.根据权利要求1所述的非编码RNA和疾病关联性数据处理方法，其特征在于，所述关联性预测模型包括数据关联模块、基于transformer结构的知识图谱嵌入模型、多层图卷积网络以及全连接层网络；数据关联模块用于根据待关联非编码RNA名称，从整合数据中检索与待关联非编码RNA存在关联关系的非编码RNA或疾病，得到若干关联数据；以及组合待关联非编码RNA名称和各关联数据名称，得到若干关...

【专利技术属性】
技术研发人员：付来义，武锦阳，王莹，彭勤科，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人