【技术实现步骤摘要】
一种药物知识图谱的数据挖掘方法、系统及电子设备
[0001]本专利技术涉及医疗健康信息数据的处理,特别涉及一种药物知识图谱的数据挖掘方法、系统及电子设备。
技术介绍
[0002]药品知识图谱本质上是一个药品的知识库,一般包括药品的适应症、适应年龄、用法、用量、用药频次、疗程、相互作用、不良反应等维度。构建药品知识图谱的过程主要在于挖掘药品的上述维度的知识。现有的方法主要是从药品说明书或者书籍中抽取/挖掘知识,人工整理效率低,人工智能技术抽取准率比较差,建模也很复杂。医院或者互联网医疗服务器里存储有大量医学处方,将这些处方利用起来,可以覆盖到大量的常用药品和常用知识,挖掘抽取的适应症准确率相比药品说明书和书籍而言更高,也更容易落地实施。
[0003]然而,医学处方的诊断有大量的不规范描述,药品和诊断也有很多错开、漏开的情况,当处方中药品和诊断不匹配时,一般有两个角度的错误,从诊断的角度可以认为是药品开错了,从药品的角度可以认为医生下的诊断不对。因此,急需一种能够从医学处方大数据中准确的抽取正确的药物和诊断数据的方法或系统。
技术实现思路
[0004]鉴于现有技术中的上述缺陷或不足,本专利技术提供了一种药物知识图谱的数据挖掘方法、系统及电子设备,能够从处方大数据中快速挖掘到正确的药品和诊断知识,从而准确和高效的构建药品知识图谱。
[0005]本专利技术的一个方面,提供了一种药物知识图谱的数据挖掘方法,包括如下步骤:
[0006]数据获取步骤,从数据库中获取结构化的处方数据,所述处方 ...
【技术保护点】
【技术特征摘要】
1.一种药物知识图谱的数据挖掘方法,其特征在于,包括如下步骤:数据获取步骤,从数据库中获取结构化的处方数据,所述处方数据包括患者信息、医院信息和药品信息;特征提取步骤,提取所述处方数据中与药品相关的特征数据;规则判断步骤,根据提取出的与药品相关的特征数据确定预设规则集,并根据所述预设规则集确定正确药品关系数据集;模型训练步骤,抽取部分所述与药品相关的特征数据进行标注,将所述与药品相关的特征数据作为待训练的判断模型的特征,根据所部分标注的结果和所述待训练的判断模型的特征,训练获得判断模型;数据融合步骤,用训练得到的判断模型对所述正确药品关系数据集中的数据进行再次判断,对判断结果为错误的药品关系数据进行再次标注,将再次标注后的数据补充至部分标注的特征数据中,并重新进行判断模型的训练;迭代步骤,重复执行上述模型训练步骤和数据融合步骤,直至所述判断模型对所述预设规则集确定的正确药品关系数据集的判断结果与标注结果在预定误差内为止,获得最终的判断模型;模型识别步骤,用最终的判断模型对未标注过的所述与药品相关的特征数据进行识别。2.根据权利要求1所述的一种药物知识图谱的数据挖掘方法,其特征在于,所述用训练得到的判断模型对所述正确药品关系数据集进行再次判断,对判断结果为错误的药品关系数据进行再次标注的步骤,具体包括:用训练得到的判断模型对所述预设规则集确定的正确药品关系数据集进行评分,对小于预设阈值的评分所对应的正确药品关系数据集进行再次标注。3.根据权利要求1所述的一种药物知识图谱的数据挖掘方法,其特征在于,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:计算药品的置信度得分:h
’
s
=(1
‑
β)
n
;其中,h是该药品的总置信度,S是出现该药品的处方总数,h
’
s
是每张处方中该药品的置信度得分,β表示权重衰减值,n表示药品数量;根据所有处方中每个药品出现的次数b和该药品的置信度h之差,计算处方置信度得分i。4.根据权利要求1所述的一种药物知识图谱的数据挖掘方法,其特征在于,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:根据处方置信度得分i和所有处方中每个药品出现的次数b的比值,计算处方质量得分率p;根据所有处方中每个诊断出现的次数a和所有处方的数量z的比值,计算得到所有处方中每个诊断出现的概率c;
根据所有处方中每个药品出现的次数b和所有处方的数量z的比值,计算得到所有处方中每个药品出现的概率d;计算每个药品出现的概率d和每个诊断出现的概率c的比值e。5.根据权利要求1所述的一种药物知识图谱的数据挖掘方法,其特征在于,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:根据所述处方中药品和诊断同时出现的次数...
【专利技术属性】
技术研发人员:刘大海,班浩,樊颖颖,霍华荣,
申请(专利权)人:北京左医健康技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。