【技术实现步骤摘要】
一种基于生物医学知识图谱推理的药物识别方法
本专利技术涉及数据挖掘方法领域,尤其是一种基于生物医学知识图谱推理的药物识别方法。
技术介绍
药物发现(drugdiscovery)是医药产业发展的核心驱动力,也是社会发展的重要需求。目前主要存在两类药物发现的方法,分别是高通量筛选(High-throughputscreening,HTS)和计算机辅助药物发现方法(computer-aideddrugdiscovery/design,CADD)。然而,尽管药物研发模式和技术有了巨大革新,药物发现依旧是一个十分漫长且耗资巨大的过程,开发一款新药平均需要14年时间,耗资约18亿美元。因此,如何提高药物发现的效率具有重大的理论价值和实用价值。从已发表的生物医学文献中发现新的药物是一种经济安全的药物发现方法。已发表的生物医学文献中隐含着无法治愈疾病的潜在治疗方法,比如雷诺士病(RaynaudDisease)在1986年以前是一种无法治愈的疾病,DonR.Swanson通过阅读一部分医学文献发现雷诺士病的患者都伴随血粘稠度升高、血脂升高等医学特征;Swanson又通过阅读另一部分 ...
【技术保护点】
1.一种基于生物医学知识图谱推理的药物识别方法,其特征在于:包括以下步骤:S1、下载生物医学文本数据:在医学文献检索系统中下载生物医学文献,并将下载得到的生物医学文献全文以字符串的形式存储在本地,得到生物医学文献库;S2、构造生物医学知识图谱:包括以下步骤:a1、抽取实体间关系:利用关系抽取工具SemRep从所述生物医学文献库中抽取得到生物实体间关系,并将抽取得到的生物实体间关系以字符串的形式存储在本地;a2、基于频率的候选实体关系过滤:预设最小频率阈值,并将在步骤a1中得到的生物实体间关系中出现次数小于预设最小频率阈值的生物实体间关系过滤掉,得到用于构造生物医学知识图谱的 ...
【技术特征摘要】
1.一种基于生物医学知识图谱推理的药物识别方法,其特征在于:包括以下步骤:S1、下载生物医学文本数据:在医学文献检索系统中下载生物医学文献,并将下载得到的生物医学文献全文以字符串的形式存储在本地,得到生物医学文献库;S2、构造生物医学知识图谱:包括以下步骤:a1、抽取实体间关系:利用关系抽取工具SemRep从所述生物医学文献库中抽取得到生物实体间关系,并将抽取得到的生物实体间关系以字符串的形式存储在本地;a2、基于频率的候选实体关系过滤:预设最小频率阈值,并将在步骤a1中得到的生物实体间关系中出现次数小于预设最小频率阈值的生物实体间关系过滤掉,得到用于构造生物医学知识图谱的实体间关系数据集S;a3、构造生物医学知识图谱:利用步骤a2得到的实体间关系数据集S构造知识图谱;在知识图谱中以实体间关系数据集S中的各个生物实体作为节点,知识图谱中的边为实体间关系数据集S中生物实体间关系,从而得到生物医学知识图谱;S3、构造药物-靶标-疾病关系数据集:在生物医学知识图谱中,建立药物-靶标-疾病三元关系路径e0r0e1r1e2r2...el-1rl-1el,其中e0,e1,e2,...,el-1,el为生物医学知识图谱中的节点,e0为药物,e1,e2,...,el-1中至少一个为药物e0的靶标,el为疾病,r0,r1,r2,...,rl-1分别为e0,e1,e2,...,el-1,el中相邻节点间的生物实体间关系,l为实体e0到实体el的路径长度,l≥2;以正例路径数据和负例路径数据构成药物-靶标-疾病关系数据集;所述正例路径的构造方法:对于一个已知的药物-靶标-疾病三元关系,首先通过路径搜索算法构造路径长度为l的训练集πl=ρ(药物→疾病;靶标,l),其中,ρ()为广度优先搜索算法,l≥2,πl为在生物医学知识图谱中以该已知药物为起点,以已知的药物-靶标-疾病三元关系中的疾病为终点且穿过已知的药物-靶标-疾病三元关系中的靶标且长度为l的所有路径;然后使用相同的路径搜索算法构造出长度为2到l的所有路径数据的集合P={π2,π3...πl}作为训练药物发现模型的正例路径数据;所述负例路径的构造方法:对于所述已知的药物-靶标-疾病三元关系,首先通过随机替换的方式将已知的药物-靶标-疾病三元关系中的药物、靶标、疾病分别替换成TherapeuticTargetDatabase数据库中的已知药物、靶标和疾病构造出随机药物-靶标-疾病三元关系:药物’-靶标’-疾病’,并保证该随机药物-靶标-疾病三元关系在TherapeuticTargetDatabase数据库中不存在;然后使用路径搜索算法构造数据集P'={π'2,π'3...π'l}作为训练药物发现模型的负例路径数据;S4、使用图嵌入的方法对图进行表示学习:利用图嵌入方法将表示形式为图结构的数据转化成低维空间向量表示的数据,具体方法为:在步骤a3构造的生物医学知识图谱中,使用(s,r,t)表示该生物医学知识图谱中一条边的头结点s、尾节点t及头节点与尾节点之间的关系r,利用图嵌入方法将头节点s、尾节点t及头节点与尾节点之间的关系r分别转化为头节点向量Vs、尾节点向量Vt及头节点与尾节点之间的关系向量Vr,Vs、Vt及Vr的向量长度均为m,m≥2;图嵌入方法的目标函数为其中,d()为距离函数,[]+表示取正数;γ为超参数;(s’,r,t’)为(s,r,t)的负例数据,VS’,Vt’分别为负例数据的头节点向量和尾节点向量,其中负例(s’,r,t’)的构造过程为使用Therape...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。