多组学数据扰动云制造技术

技术编号：21973204 阅读：182 留言：0更新日期：2019-08-28 01:50

本发明专利技术公开了一种基于多源数据的药物知识发现方法，该方法包括以下步骤：一、原始数据来源、获取与建库；二、构建差异表达基因数据库；三、全药物或全疾病与差异表达基因关联建立；四、实现药物知识的发现。本发明专利技术解决了多源大数据的物理融合、药物与疾病命名实体的识别以及药物疾病知识关联网络模型的构建等难题；实现基因表达谱数据、药物知识数据、疾病知识数据和科研文献知识数据的全融合，通过多源大数据的交叉印证，提高药物知识发现的效率，为全疾病领域的老药新用和新药研发提供全新的思路。

Multigroup data perturbation cloud

全部详细技术资料下载

【技术实现步骤摘要】
多组学数据扰动云
本专利技术涉及一种多组学数据扰动云，属于生物医药

技术介绍
药物研发不仅需要耗费大量人力和物力，且存在较大风险和不确定性因素，因而造成药物价格昂贵。研究表明，一种新药的研发平均要耗费26亿美元，进入临床试验阶段的药物，仅约12％会被美国食品药品管理局批准使用[1]。即使某些药物在部分病人中出现阳性结果，如果它们不能降低疾病的复发率或延长病人的中位无进展生存时间(medianprogression-freesurvival)，同样会被淘汰[2]。另一方面，尽管近年来批准上市的新药数量有所增加[3]，但依然存在大量不可治愈的疾病。科研人员在药物的开发过程中，经常会因为偶然的原因发现药物的新适应症，因此基于药物知识发现的药物研发受到广泛关注。本平台中的药物知识发现(DrugKnowledgeDiscovery)，是指药物重定位，它是利用相关的技术方法对已有的药物进行重新筛选、组合或改造从而发现其未知新用途的过程[4,5]。随着转录组分析技术的成熟，基因表达谱分析逐渐成为药物知识发现的主流方法。基因表达谱是后基因组时代最先发展起来的高通量技术，其通过测定基因在特定条件下mRNA的表达量，能够从整体水平研究基因的结构与功能，揭示特定的生物学过程和疾病发生发展的分子机制，是目前识别和描述与特定表型或者扰动相关的基因表达模式最为有效、准确和高重复性的数据类型。基因表达谱数据能够提供一系列在特定实验条件下相对于对照组的差异表达基因(包括过表达或欠表达基因)，如疾病相对于健康的对照或药物处理相对于空白的对照等。通过分析这些差异表达基因，能够评估因...

【技术保护点】
1.一种基于多源数据的药物知识发现方法，其特在于该方法包括以下步骤：一、原始数据来源、获取与建库(1)基因表达谱数据来源：选取权威综合基因芯片数据库作为基因表达谱原始数据的来源；获取：基于Python Scrapy框架开发基因表达谱数据下载器 (2)药物信息数据来源：DrugBank；获取：下载所有药物的XML文件，通过Python lml包进行解析，得到药物字典，包括识别号、名称、别名、适应症、科目分类、不良反应等信息；(3)疾病信息数据来源：MalaCards: The human disease database；获取：通过Python Scrapy下载所有疾病的相关信息，生成疾病字典，包括识别号、名称、别名、症状、疾病分类、ICD号等；(4)科研文献数据来源：选取PubMed数据库作为文献数据来源，用于预测药物的验证；获取：基于Python Scrapy框架开发PubMed文献题库信息下载器，PubMed数据库提供API数据访问接口(E‑utility)，可结合该接口中的ESearch函数和EFetch函数完成数据下载；二、构建差异表达基因数据库编写Python程序：利用lx...

【技术特征摘要】
1.一种基于多源数据的药物知识发现方法，其特在于该方法包括以下步骤：一、原始数据来源、获取与建库(1)基因表达谱数据来源：选取权威综合基因芯片数据库作为基因表达谱原始数据的来源；获取：基于PythonScrapy框架开发基因表达谱数据下载器(2)药物信息数据来源：DrugBank；获取：下载所有药物的XML文件，通过Pythonlml包进行解析，得到药物字典，包括识别号、名称、别名、适应症、科目分类、不良反应等信息；(3)疾病信息数据来源：MalaCards:Thehumandiseasedatabase；获取：通过PythonScrapy下载所有疾病的相关信息，生成疾病字典，包括识别号、名称、别名、症状、疾病分类、ICD号等；(4)科研文献数据来源：选取PubMed数据库作为文献数据来源，用于预测药物的验证；获取：基于PythonScrapy框架开发PubMed文献题库信息下载器，PubMed数据库提供API数据访问接口(E-utility)，可结合该接口中的ESearch函数和EFetch函数完成数据下载；二、构建差异表达基因数据库编写Python程序：利用lxml包解析已采集好的基因表达谱数据文件，进行样本分组，建立分组矩阵，利用PythonPandas包在矩阵层面T检验、比值对数运算，筛选差异表达基因，并完成基因Symbol匹配；三、全药物或全疾病与差异表达基因关联建立利用Python的re包，编写正则表达式，通过基于药物或疾病字典和基于规则匹配结合的方式，在差异表达基因数据库的标题和摘要字段，匹配药物或疾病名称，建立全药物或全疾病与差异表达基因的关联；四、实现药物知识的发现以Jaccard相似系数为基础，建立关联模型；药物A与潜在适应症或疾病B的基因表达谱应负相关，故修正Jaccard系数为：公式一其中，J（A，B）表示药物A和潜在适应症或疾病B的基因表达谱的Jaccard系数，iA+和iA-分别表示药物的上调和下调基因，iB+和iB-分别表示潜在适应症或疾病B的上调和下调基因；药物A与潜在类似物C的基因表达谱应正相关，故修正Jaccard系数应为：公式二其中，J（A，B）表示药物A和潜在类似物C的基因表达谱的Jaccard系数，iA+和iA-分别表示药物的上调和下调基因，iC+和iC-分别表示潜在类似物的上调和下调基因。2.根据权利要求1所述的方法，其特征在于：进一步还包括步骤五，即：科研文本验证，编写Python程序，利用NLTK自然语言处理包，基于已建好的生物科研文献数据库，构建备选药物相关的“药物-疾病”...

【专利技术属性】
技术研发人员：贺培凤，卢学春，于琦，
申请(专利权)人：山西医科大学，
类型：发明
国别省市：山西,14

全部详细技术资料下载我是这个专利的主人