多组学数据扰动云制造技术

技术编号:21973204 阅读:182 留言:0更新日期:2019-08-28 01:50
本发明专利技术公开了一种基于多源数据的药物知识发现方法,该方法包括以下步骤:一、原始数据来源、获取与建库;二、构建差异表达基因数据库;三、全药物或全疾病与差异表达基因关联建立;四、实现药物知识的发现。本发明专利技术解决了多源大数据的物理融合、药物与疾病命名实体的识别以及药物疾病知识关联网络模型的构建等难题;实现基因表达谱数据、药物知识数据、疾病知识数据和科研文献知识数据的全融合,通过多源大数据的交叉印证,提高药物知识发现的效率,为全疾病领域的老药新用和新药研发提供全新的思路。

Multigroup data perturbation cloud

【技术实现步骤摘要】
多组学数据扰动云
本专利技术涉及一种多组学数据扰动云,属于生物医药

技术介绍
药物研发不仅需要耗费大量人力和物力,且存在较大风险和不确定性因素,因而造成药物价格昂贵。研究表明,一种新药的研发平均要耗费26亿美元,进入临床试验阶段的药物,仅约12%会被美国食品药品管理局批准使用[1]。即使某些药物在部分病人中出现阳性结果,如果它们不能降低疾病的复发率或延长病人的中位无进展生存时间(medianprogression-freesurvival),同样会被淘汰[2]。另一方面,尽管近年来批准上市的新药数量有所增加[3],但依然存在大量不可治愈的疾病。科研人员在药物的开发过程中,经常会因为偶然的原因发现药物的新适应症,因此基于药物知识发现的药物研发受到广泛关注。本平台中的药物知识发现(DrugKnowledgeDiscovery),是指药物重定位,它是利用相关的技术方法对已有的药物进行重新筛选、组合或改造从而发现其未知新用途的过程[4,5]。随着转录组分析技术的成熟,基因表达谱分析逐渐成为药物知识发现的主流方法。基因表达谱是后基因组时代最先发展起来的高通量技术,其通过测定基因在特定条件下mRNA的表达量,能够从整体水平研究基因的结构与功能,揭示特定的生物学过程和疾病发生发展的分子机制,是目前识别和描述与特定表型或者扰动相关的基因表达模式最为有效、准确和高重复性的数据类型。基因表达谱数据能够提供一系列在特定实验条件下相对于对照组的差异表达基因(包括过表达或欠表达基因),如疾病相对于健康的对照或药物处理相对于空白的对照等。通过分析这些差异表达基因,能够评估因疾病而紊乱的通路或网络。ConnectivityMap(下简称CMap)项目是目前最完备的基于基因表达谱的药物研发体系之一。该项目包含了不同药物处理人类肿瘤细胞系得到的基因组表达变化信息,通过GSEA(genesetenrichmentanalysis)算法[7]比对不同基因表达谱之间的相似程度,产生两类假设:①若目标药物与特定药物具有相似的基因表达谱,则两药物可能具有相似的适应症;②若目标药物与特定疾病模型具有相反的基因表达谱,则该疾病可能是目标药物的潜在适应症。基于这两个假设,可以开展已有药物的潜在适应症(疾病)或类似物的知识发现研究。在一系列研究中,基于CMap产生的药物知识的发现假设都得到了有效验证,并为药物知识的发现提供了许多有价值的线索[8]。然而,采用基因表达谱数据作为单独的数据源开展药物知识发现研究具有明显的缺陷,主要表现为:①由于没有将基因表达数据与疾病知识库和药物知识库建立关联,因此只能开展个案研究,如发现某一种疾病的潜在治疗药物,抑或发现与某一种药物具有类似功效的药物,而不能批量地建立多种药物和多种疾病之间的关联,故降低了药物知识发现的效率;②对于通过基因表达谱数据的药物知识的发现,如果没有进一步进行验证,会导致后期实验的成功率不高,造成实验资源的浪费。弥补这些缺陷的核心在于,融合基因表达谱数据、药物知识库、疾病知识库和科研文献数据等多种数据源,集各种数据源的优势于一身,建立药物知识发现模型,提高药物知识发现的效率和成功率。鉴于此,本专利技术拟从多源数据融合角度,基于“药物—疾病”网络开展知识发现研究,从而实现药物知识的发现,这对于医学领域提出有效的科学问题,并高效开展科学研究具有重要的理论意义和实际应用价值。参考文献[1]DiMasiJA,GrabowskiHG,HansenRW.Innovationinthepharmaceuticalindustry:NewestimatesofR&Dcosts[J].JournalofHealthEconomics,2016,(47):20-33.[2]IyerG,HanrahanAJ,MilowskyMI,Al-AhmadieH,ScottSN,JanakiramanM,PirunM,SanderC,SocciND,OstrovnayaI,VialeA,HeguyA,PengL,ChanTA,BochnerB,BajorinDF,BergerMF,TaylorBS,SolitDB.GenomeSequencingIdentifiesaBasisforEverolimusSensitivity[J].Science,2012,338(6104):221-221.[3]MullardA.2017FDAdrugapprovals[J].NatureReviewsDrugDiscovery,2018,17(2):81-85.[4]ChongCR,SullivanJrDJ.Newusesforolddrugs[J].Nature,2007,448(7154):645-646.[5]王可鉴,石乐明,贺林,张永祥,杨仑.中国药物研发的新机遇:基于医药大数据的系统性药物重定位[J].科学通报,2014,59(18):1790-1796.[6]RajuTN.TheNobelchronicles.1988:JamesWhyteBlack,(b1924),GertrudeElion(1918-99),andGeorgeHHitchings(1905-98)[J].Lancet,2000,355(9208):1022.[7]SubramanianA,TamayoP,MoothaVK,MukherjeeS,EbertBL,GilletteMA,PaulovichA,PomeroySL,GolubTR,LanderES,MesirovJP.Genesetenrichmentanalysis:Aknowledge-basedapproachforinterpretinggenome-wideexpressionprofiles[J].ProceedingsoftheNationalAcademyofSciences,2005,102(43):15545-15550.[8]KunkelSD,SunejaM,EbertSM,BongersKS,FoxDK,MalmbergSE,AlipourF,ShieldsRK,AdamsCM.mRNAexpressionsignaturesofhumanskeletalmuscleatrophyidentifyanaturalcompoundthatincreasesmusclemass[J].CellMetabolism,2011,13(6):627-638.
技术实现思路
本专利技术所要解决的技术问题是提供一种多组学数据扰动云,解决多源大数据的物理融合、药物与疾病命名实体的识别以及药物疾病知识关联网络模型的构建等难题;实现基因表达谱数据、药物知识数据、疾病知识数据和科研文献知识数据的全融合,通过多源大数据的交叉印证,提高药物知识发现的效率,为全疾病领域的老药新用和新药研发提供全新的思路。本专利技术提供的技术方案是:一种基于多源数据的药物知识发现方法,该方法包括以下步骤:一、原始数据来源、获取与建库(1)基因表达谱数据来源:选取权威综合基因芯片数据库作为基因表达谱原始数据的来源;获取:基于PythonScrapy框架开发基因表达谱数据下载器(2)药物信息数据来源:DrugBan本文档来自技高网
...

【技术保护点】
1.一种基于多源数据的药物知识发现方法,其特在于该方法包括以下步骤:一、 原始数据来源、获取与建库(1)基因表达谱数据来源:选取权威综合基因芯片数据库作为基因表达谱原始数据的来源;获取:基于Python Scrapy框架开发基因表达谱数据下载器 (2)药物信息数据来源:DrugBank;获取:下载所有药物的XML文件,通过Python lml包进行解析,得到药物字典,包括识别号、名称、别名、适应症、科目分类、不良反应等信息;(3)疾病信息数据来源:MalaCards: The human disease database;获取:通过Python Scrapy下载所有疾病的相关信息,生成疾病字典,包括识别号、名称、别名、症状、疾病分类、ICD号等;(4)科研文献数据来源:选取PubMed数据库作为文献数据来源,用于预测药物的验证;获取:基于Python Scrapy框架开发PubMed文献题库信息下载器,PubMed数据库提供API数据访问接口(E‑utility),可结合该接口中的ESearch函数和EFetch函数完成数据下载;二、构建差异表达基因数据库编写Python程序:利用lxml包解析已采集好的基因表达谱数据文件,进行样本分组,建立分组矩阵,利用Python Pandas包在矩阵层面T检验、比值对数运算,筛选差异表达基因,并完成基因Symbol匹配;三、全药物或全疾病与差异表达基因关联建立利用Python的re包,编写正则表达式,通过基于药物或疾病字典和基于规则匹配结合的方式,在差异表达基因数据库的标题和摘要字段,匹配药物或疾病名称,建立全药物或全疾病与差异表达基因的关联;四、实现药物知识的发现以Jaccard相似系数为基础,建立关联模型;药物A与潜在适应症或疾病B的基因表达谱应负相关,故修正Jaccard系数为:公式一...

【技术特征摘要】
1.一种基于多源数据的药物知识发现方法,其特在于该方法包括以下步骤:一、原始数据来源、获取与建库(1)基因表达谱数据来源:选取权威综合基因芯片数据库作为基因表达谱原始数据的来源;获取:基于PythonScrapy框架开发基因表达谱数据下载器(2)药物信息数据来源:DrugBank;获取:下载所有药物的XML文件,通过Pythonlml包进行解析,得到药物字典,包括识别号、名称、别名、适应症、科目分类、不良反应等信息;(3)疾病信息数据来源:MalaCards:Thehumandiseasedatabase;获取:通过PythonScrapy下载所有疾病的相关信息,生成疾病字典,包括识别号、名称、别名、症状、疾病分类、ICD号等;(4)科研文献数据来源:选取PubMed数据库作为文献数据来源,用于预测药物的验证;获取:基于PythonScrapy框架开发PubMed文献题库信息下载器,PubMed数据库提供API数据访问接口(E-utility),可结合该接口中的ESearch函数和EFetch函数完成数据下载;二、构建差异表达基因数据库编写Python程序:利用lxml包解析已采集好的基因表达谱数据文件,进行样本分组,建立分组矩阵,利用PythonPandas包在矩阵层面T检验、比值对数运算,筛选差异表达基因,并完成基因Symbol匹配;三、全药物或全疾病与差异表达基因关联建立利用Python的re包,编写正则表达式,通过基于药物或疾病字典和基于规则匹配结合的方式,在差异表达基因数据库的标题和摘要字段,匹配药物或疾病名称,建立全药物或全疾病与差异表达基因的关联;四、实现药物知识的发现以Jaccard相似系数为基础,建立关联模型;药物A与潜在适应症或疾病B的基因表达谱应负相关,故修正Jaccard系数为:公式一其中,J(A,B)表示药物A和潜在适应症或疾病B的基因表达谱的Jaccard系数,iA+和iA-分别表示药物的上调和下调基因,iB+和iB-分别表示潜在适应症或疾病B的上调和下调基因;药物A与潜在类似物C的基因表达谱应正相关,故修正Jaccard系数应为:公式二其中,J(A,B)表示药物A和潜在类似物C的基因表达谱的Jaccard系数,iA+和iA-分别表示药物的上调和下调基因,iC+和iC-分别表示潜在类似物的上调和下调基因。2.根据权利要求1所述的方法,其特征在于:进一步还包括步骤五,即:科研文本验证,编写Python程序,利用NLTK自然语言处理包,基于已建好的生物科研文献数据库,构建备选药物相关的“药物-疾病”...

【专利技术属性】
技术研发人员:贺培凤卢学春于琦
申请(专利权)人:山西医科大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1