一种药物知识图谱的数据挖掘方法、系统及电子设备技术方案

技术编号:38321255 阅读:18 留言:0更新日期:2023-07-29 09:03
本发明专利技术涉及医疗健康信息数据的处理,其公开了一种药物知识图谱的数据挖掘方法、系统及电子设备,包括:数据获取步骤、特征提取步骤、规则判断步骤、模型训练步骤、数据融合步骤、迭代步骤和模型识别步骤。本发明专利技术通过从处方大数据中挖掘出与药品相关的特征,并根据该特征设计出准确的判断逻辑和判断条件,并将判断逻辑和判断条件获得的正确药品关系数据作为算法模型的验证样本和训练补充样本,并将验证为错误的结果重新标注后补充至训练集中,从而确保算法模型学习到的训练样本足够的准确和全面,最终得到的算法模型可以获得满足要求的识别准确率。准确率。准确率。

【技术实现步骤摘要】
一种药物知识图谱的数据挖掘方法、系统及电子设备


[0001]本专利技术涉及医疗健康信息数据的处理,特别涉及一种药物知识图谱的数据挖掘方法、系统及电子设备。

技术介绍

[0002]药品知识图谱本质上是一个药品的知识库,一般包括药品的适应症、适应年龄、用法、用量、用药频次、疗程、相互作用、不良反应等维度。构建药品知识图谱的过程主要在于挖掘药品的上述维度的知识。现有的方法主要是从药品说明书或者书籍中抽取/挖掘知识,人工整理效率低,人工智能技术抽取准率比较差,建模也很复杂。医院或者互联网医疗服务器里存储有大量医学处方,将这些处方利用起来,可以覆盖到大量的常用药品和常用知识,挖掘抽取的适应症准确率相比药品说明书和书籍而言更高,也更容易落地实施。
[0003]然而,医学处方的诊断有大量的不规范描述,药品和诊断也有很多错开、漏开的情况,当处方中药品和诊断不匹配时,一般有两个角度的错误,从诊断的角度可以认为是药品开错了,从药品的角度可以认为医生下的诊断不对。因此,急需一种能够从医学处方大数据中准确的抽取正确的药物和诊断数据的方法或系统。

技术实现思路

[0004]鉴于现有技术中的上述缺陷或不足,本专利技术提供了一种药物知识图谱的数据挖掘方法、系统及电子设备,能够从处方大数据中快速挖掘到正确的药品和诊断知识,从而准确和高效的构建药品知识图谱。
[0005]本专利技术的一个方面,提供了一种药物知识图谱的数据挖掘方法,包括如下步骤:
[0006]数据获取步骤,从数据库中获取结构化的处方数据,所述处方数据包括患者信息、医院信息和药品信息;
[0007]特征提取步骤,提取所述处方数据中与药品相关的特征数据;
[0008]规则判断步骤,根据提取出的与药品相关的特征数据确定预设规则集,并根据所述预设规则集确定正确药品关系数据集;
[0009]模型训练步骤,抽取部分所述与药品相关的特征数据进行标注,将所述与药品相关的特征数据作为待训练的判断模型的特征,根据所部分标注的结果和所述待训练的判断模型的特征,训练获得判断模型;
[0010]数据融合步骤,用训练得到的判断模型对所述正确药品关系数据集中的数据进行再次判断,对判断结果为错误的药品关系数据进行再次标注,将再次标注后的数据补充至部分标注的特征数据中,并重新进行判断模型的训练;
[0011]迭代步骤,重复执行上述模型训练步骤和数据融合步骤,直至所述判断模型对所述预设规则集确定的正确药品关系数据集的判断结果与标注结果在预定误差内为止,获得最终的判断模型;
[0012]模型识别步骤,用最终的判断模型对未标注过的所述与药品相关的特征数据进行
识别。
[0013]进一步的,所述用训练得到的判断模型对所述正确药品关系数据集进行再次判断,对判断结果为错误的药品关系数据进行再次标注的步骤,具体包括:
[0014]用训练得到的判断模型对所述预设规则集确定的正确药品关系数据集进行评分,对小于预设阈值的评分所对应的正确药品关系数据集进行再次标注。
[0015]进一步的,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:
[0016]计算药品的置信度得分:
[0017][0018]h
s
'=(1

β)
n

[0019]其中,h是该药品的总置信度,S是出现该药品的处方总数,h

s
是每张处方中该药品的置信度得分,β表示权重衰减值,n表示药品数量;
[0020]根据所有处方中每个药品出现的次数b和该药品的置信度h之差,计算处方置信度得分i。
[0021]进一步的,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:
[0022]根据处方置信度得分i和所有处方中每个药品出现的次数b的比值,计算处方质量得分率p;
[0023]根据所有处方中每个诊断出现的次数a和所有处方的数量z的比值,计算得到所有处方中每个诊断出现的概率c;
[0024]根据所有处方中每个药品出现的次数b和所有处方的数量z的比值,计算得到所有处方中每个药品出现的概率d;
[0025]计算每个药品出现的概率d和每个诊断出现的概率c的比值e。
[0026]进一步的,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:
[0027]根据所述处方中药品和诊断同时出现的次数f和所有处方中每个诊断出现的次数a的比值,计算药品和诊断同时出现的概率g;
[0028]统计每个药品、诊断出现在不同医院处方里时,不同医院的数量j;
[0029]统计药品、诊断、医院名称三者同时出现的数量,并统计每个药品、诊断里面医院名称出现的最大次数k;
[0030]根据每个药品、诊断里面医院名称出现的最大次数k和所述处方中药品和诊断同时出现的次数f的比值,计算每个药品、诊断里面医院名称最大次数的占比L。
[0031]进一步的,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:
[0032]统计每个药品、诊断出现在不同科室处方里时,不同科室的数量m;
[0033]统计药品、诊断、科室名称三者同时出现的数量,并统计每个药品、诊断里面科室名称出现的最大次数n;
[0034]根据每个药品、诊断里面科室名称出现的最大次数n和所述处方中药品和诊断同时出现的次数f的比值,计算每个药品、诊断里面科室名称最大次数的占比o。
[0035]进一步的,根据提取的与药品和诊断相关的特征数据设置预设规则集,根据预设规则集得到初步正确药品诊断数据集和初步错误药品诊断数据集。
[0036]进一步的,将属于所述初步正确药品关系数据集,且不属于所述初步错误药品诊断数据集的数据集合作为根据所述预设规则集确定的正确药品诊断数据集。
[0037]本专利技术的第二方面,还提供了一种药物知识图谱的数据挖掘系统,包括:
[0038]数据获取模块,被配置为从数据库中获取结构化的处方数据,所述处方数据包括患者信息、医院信息和药品信息;
[0039]特征提取模块,被配置为提取所述处方数据中与药品相关的特征数据;
[0040]规则判断模块,被配置为根据提取出的与药品相关的特征数据确定预设规则集,并根据所述预设规则集确定正确药品关系数据集;
[0041]模型训练模块,被配置为抽取部分所述与药品相关的特征数据进行标注,将所述与药品相关的特征数据作为待训练的判断模型的特征,根据所部分标注的结果和所述待训练的判断模型的特征,训练获得判断模型;
[0042]数据融合模块,被配置为用训练得到的判断模型对所述正确药品关系数据集中的数据进行再次判断,对判断结果为错误的药品关系数据进行再次标注,将再次标注后的数据补充至部分标注的特征数据中,并重新进行判断模型的训练;
[0043]迭代模块,被配置为重复本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种药物知识图谱的数据挖掘方法,其特征在于,包括如下步骤:数据获取步骤,从数据库中获取结构化的处方数据,所述处方数据包括患者信息、医院信息和药品信息;特征提取步骤,提取所述处方数据中与药品相关的特征数据;规则判断步骤,根据提取出的与药品相关的特征数据确定预设规则集,并根据所述预设规则集确定正确药品关系数据集;模型训练步骤,抽取部分所述与药品相关的特征数据进行标注,将所述与药品相关的特征数据作为待训练的判断模型的特征,根据所部分标注的结果和所述待训练的判断模型的特征,训练获得判断模型;数据融合步骤,用训练得到的判断模型对所述正确药品关系数据集中的数据进行再次判断,对判断结果为错误的药品关系数据进行再次标注,将再次标注后的数据补充至部分标注的特征数据中,并重新进行判断模型的训练;迭代步骤,重复执行上述模型训练步骤和数据融合步骤,直至所述判断模型对所述预设规则集确定的正确药品关系数据集的判断结果与标注结果在预定误差内为止,获得最终的判断模型;模型识别步骤,用最终的判断模型对未标注过的所述与药品相关的特征数据进行识别。2.根据权利要求1所述的一种药物知识图谱的数据挖掘方法,其特征在于,所述用训练得到的判断模型对所述正确药品关系数据集进行再次判断,对判断结果为错误的药品关系数据进行再次标注的步骤,具体包括:用训练得到的判断模型对所述预设规则集确定的正确药品关系数据集进行评分,对小于预设阈值的评分所对应的正确药品关系数据集进行再次标注。3.根据权利要求1所述的一种药物知识图谱的数据挖掘方法,其特征在于,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:计算药品的置信度得分:h

s
=(1

β)
n
;其中,h是该药品的总置信度,S是出现该药品的处方总数,h

s
是每张处方中该药品的置信度得分,β表示权重衰减值,n表示药品数量;根据所有处方中每个药品出现的次数b和该药品的置信度h之差,计算处方置信度得分i。4.根据权利要求1所述的一种药物知识图谱的数据挖掘方法,其特征在于,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:根据处方置信度得分i和所有处方中每个药品出现的次数b的比值,计算处方质量得分率p;根据所有处方中每个诊断出现的次数a和所有处方的数量z的比值,计算得到所有处方中每个诊断出现的概率c;
根据所有处方中每个药品出现的次数b和所有处方的数量z的比值,计算得到所有处方中每个药品出现的概率d;计算每个药品出现的概率d和每个诊断出现的概率c的比值e。5.根据权利要求1所述的一种药物知识图谱的数据挖掘方法,其特征在于,所述与药品相关的特征数据是与药品和诊断相关的特征数据,所述特征提取步骤还包括:根据所述处方中药品和诊断同时出现的次数...

【专利技术属性】
技术研发人员:刘大海班浩樊颖颖霍华荣
申请(专利权)人:北京左医健康技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1