医疗知识图谱的挖掘方法及装置、计算机设备及可读介质制造方法及图纸

技术编号:22389065 阅读:17 留言:0更新日期:2019-10-29 07:01
本发明专利技术提供一种医疗知识图谱的挖掘方法及装置、计算机设备及可读介质。所述方法包括:从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;判断各所述高频SPO是否能够通过寻证;若能,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。本发明专利技术的技术方案,可以自动化地进行医疗知识图谱的挖掘,全程中不需要人工参与,因此,与现有技术相比,医疗知识图谱挖掘过程省时、省力,从而能够有效地提高挖掘效率。

【技术实现步骤摘要】
医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
本专利技术涉及计算机应用
,尤其涉及一种医疗知识图谱的挖掘方法及装置、计算机设备及可读介质。
技术介绍
知识图谱作为一种新型的结构化的信息网络,能够在信息检索以及信息整合等领域起着越来越重要的角色。近年来,各个领域都在围绕知识图谱展开了一系列的研究。知识图谱在结构上由一些相互连接的实体以及它们的属性关系构成。知识图谱在内容上可以由一条条知识组成,每条知识可以表示为一个主体-关系-客体(Subject-Predicate-Object;SPO)三元组。其中主体S和客体O分别为两个实体,P为主体S和客体O之间的属性关系。因此,通过挖掘所有的SPO三元组,便可以构成相应的知识图谱。例如,在医疗领域中,知识图谱作为一个新兴的研发方向也具有非常重要的研究意义,尤其是知识图谱的挖掘也显得尤为重要。现有的医疗知识图谱,通过预先建立实体词表,如疾病词表、症状词表、体征词表、检验词表等,通过词表匹配的方式,从病历数据源中挖掘实体;然后再由医学专家人工审核并标注实体间的属性关系,从而挖掘各个SPO三元组。但是,对于庞大的病历数据源来说,采用上述现有方案挖掘医疗知识图谱的过程无法全自动化地进行,导致医疗知识图谱挖掘过程费时、费力,挖掘效率较低。
技术实现思路
本专利技术提供了一种医疗知识图谱的挖掘方法及装置、计算机设备及可读介质,用于提供一种省时、省力的医疗知识图谱挖掘方案,提高挖掘效率。本专利技术提供一种医疗知识图谱的挖掘方法,所述方法包括:从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;判断各所述高频SPO是否能够通过寻证;若能,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。本专利技术提供一种医疗知识图谱的挖掘装置,所述装置包括:候选SPO挖掘模块,用于从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;高频SPO挖掘模块,用于根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;检测模块,用于判断各所述高频SPO是否能够通过寻证;确定模块,用于若所述检测模块确定所述高频SPO能够通过寻证,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。本专利技术还提供一种计算机设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的医疗知识图谱的挖掘方法。本专利技术还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的医疗知识图谱的挖掘方法。本专利技术的医疗知识图谱的挖掘方法及装置、计算机设备及可读介质,通过采用上述技术方案,可以自动化地进行医疗知识图谱的挖掘,全程中不需要人工参与,因此,与现有技术相比,医疗知识图谱挖掘过程省时、省力,从而能够有效地提高挖掘效率。【附图说明】图1为本专利技术的医疗知识图谱的挖掘方法实施例的流程图。图2为本专利技术的医疗知识图谱的挖掘装置实施例一的结构图。图3为本专利技术的医疗知识图谱的挖掘装置实施例二的结构图。图4为本专利技术的计算机设备实施例的结构图。图5为本专利技术提供的一种计算机设备的示例图。【具体实施方式】为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。图1为本专利技术的医疗知识图谱的挖掘方法实施例的流程图。如图1所示,本实施例的医疗知识图谱的挖掘方法,具体可以包括如下步骤:S100、从预先采集的病历库中挖掘数个候选SPO,各候选SPO包括候选诊断疾病实体、候选诊断疾病实体对应的属性关系以及属性关系指向的候选相关实体;本实施例的医疗知识图谱的挖掘方法的执行主体为医疗知识图谱的挖掘装置,该医疗知识图谱的挖掘装置可以为一个独立的电子实体,或者也可以为一个软件集成的应用。使用时,挖掘医疗知识图谱中的各个目标SPO,即实现医疗知识图谱的挖掘。本实施例的病历库可以从各个医院的医疗管理系统中采集所有病人的病历集成而来。且为了保护用户个人隐私,本实施例中,需要对病历中的用户的身份信息如姓名脱敏,以保证该病历库单纯地包括病历信息,以用于医疗知识图谱的挖掘。本实施例的病历库中的病历为半结构化数据。例如每一份病历中可以包括初步诊断、入院诊断、出院诊断、病人的主诉以及现病史、过敏史等等信息。例如病人第一次在门诊看病的时候,医生可以基于该病人的具体情况,在医疗管理系统中记录该病人的姓名、年龄、症状、体征、检查、检验等等,得到并记录初步诊断。对于需要进一步住院治疗的病人,在入院当天还需要根据病人更新的症状、体征、检查、检验等等,得到并记录入院诊断。例如若入院之后,需要手术或者其他治疗,还需要根据治疗中的情况进行更加精准地诊断。如手术的病人,可以直接取病理进行检验,以对病人的病情精确诊断。本实施例的症状可以为脑袋疼、流鼻涕、打喷嚏等病人基于自己的体感描述的不舒服的装症状。而体征可以为医生基于病人描述的症状,总结的专业一点的体感特征,如头疼、流涕等等。本实施例中的检查可以为肠镜、胃镜、喉镜等等各种借助于医疗器械实现对病人身体的某部分进行的检查。本实施例中的检验可以为从病人的身体中采集其代谢物或者血液等等,通过一定的生化实验所进行的检验,如尿常规、血常规以及其他的血液检验、尿液检验或者粪便检验等等。本实施例中,病人的主诉可以为病人在就诊时的诉求,其中可以描述病人自身的体感,或者主动申请的一些相关的检查或者检验等;现病史可以为病人在就诊对已有疾病的描述。病人的过敏史可以为医生在医治过程中发现并记录在医疗管理系统中,或者也可以由病人就诊时主动告知医生,由医生在医疗管理系统中记录。由上述可知,本实施例的病历中包括的信息非常丰富。且各医院的医疗管理系统结构类似,病历中包括的每一部分信息都有近乎固定的位置。因此,基于本实施例采集到的病历库中的病历,可以挖掘数个候选SPO。其中每个候选SPO包括候选诊断疾病实体即S、候选诊断疾病实体S对应的属性关系即P以及属性关系P指向的候选相关实体O。例如,该步骤S100从预先采集的病历库中挖掘数个候选SPO,具体可以包括如下步骤:(a1)从病历库的各病历中抽取候选诊断疾病实体;例如,由上述病历记录的信息可以知道:在病历中,诊断疾病实体是有固定出现位置的,主要包括在出院诊断,入院诊断,初步诊断等位置,且随着病程的递进,诊断的疾病更加准确,例如出院诊断的准确性高于入院诊断的准确性,而入院诊断的准确性高于初步诊断的准确性。因此,本实施例中,具体可以从病历库的各病历中固定位置的出院诊断、入院诊断或者初步诊断中抽取候选诊断疾病实体;或按照出院诊断的优先级大于入院诊断的优先级、入院诊断的优先级大于初步诊断的优先级,从病历库的各病历中、优先级最高的诊断中抽取候选诊断疾病实体。当然,实际应用中,某些病历可能仅包括出院诊断、入院诊断以及初步诊断中的某一种或者两种。若仅包括其中一种诊断,则从包括的该种诊断中抽取候选诊断疾病实体。本文档来自技高网...

【技术保护点】
1.一种医疗知识图谱的挖掘方法,其特征在于,所述方法包括:从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;判断各所述高频SPO是否能够通过寻证;若能,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。

【技术特征摘要】
1.一种医疗知识图谱的挖掘方法,其特征在于,所述方法包括:从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;判断各所述高频SPO是否能够通过寻证;若能,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。2.根据权利要求1所述的方法,其特征在于,从预先采集的病历库中挖掘数个候选SPO,包括:从所述病历库的各病历中抽取候选诊断疾病实体;从各所述病历中挖掘所述候选诊断疾病实体对应的各属性关系及各所述属性关系指向的候选相关实体;将从同一所述病历中挖掘的一组所述候选诊断疾病实体、所述属性关系以及所述属性关系指向的候选实体,构成一个所述候选SPO,共挖掘得到所述数个候选SPO。3.根据权利要求2所述的方法,其特征在于,从所述病历库的各病历中抽取候选诊断疾病实体,包括:从所述病历库的各所述病历中的出院诊断、入院诊断或者初步诊断中抽取所述候选诊断疾病实体;或按照出院诊断的优先级大于入院诊断的优先级、所述入院诊断的优先级大于初步诊断的优先级,从所述病历库的各所述病历中、优先级最高的诊断中抽取所述候选诊断疾病实体。4.根据权利要求2所述的方法,其特征在于,从各所述病历中挖掘所述候选诊断疾病实体对应的各属性关系及各所述属性关系指向的候选相关实体,包括:从各所述病历的主诉和病史中挖掘所述候选诊断疾病实体对应的各所述属性关系及各所述属性关系指向的候选相关实体。5.根据权利要求1所述的方法,其特征在于,根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO,包括:计算所述数个候选SPO中的各所述候选SPO在所述病历库中被挖掘出的频次;从所述数个候选SPO中挖掘所述频次大于预设频次阈值的多个所述候选SPO,作为所述多个高频SPO,或者将所述数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个所述候选SPO,作为所述多个高频SPO;计算所述数个候选SPO中的各所述候选SPO的出现概率;各所述候选SPO的出现概率等于所述候选SPO被挖掘出的频次除以所述病历库对应的所述候选诊断疾病实体出现的总次数;从所述数个候选SPO中挖掘所述出现概率大于预设概率阈值的多个所述候选SPO,作为所述多个高频SPO;或者将所述数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个所述候选SPO,作为所述多个高频SPO;或者计算所述数个候选SPO中的各所述候选SPO在所述病历库中被挖掘出的频次以及各所述候选SPO的出现概率,从所述数个候选SPO中挖掘所述频次大于预设频次阈值、且所述出现概率大于预设概率阈值的多个所述候选SPO,作为所述多个高频SPO。6.根据权利要求1所述的方法,其特征在于,判断各所述高频SPO是否能够通过寻证,包括:判断各所述高频SPO是否能够在预设的权威书籍上寻找到的证据;若能,确定能够通过寻找,否则不能通过寻证。7.根据权利要求6或者7所述的方法,其特征在于,若所述高频SPO不能够通过寻证,所述方法还包括:向专家医疗系统发送携带对应的所述高频SPO的寻证请求,以供登录所述专家医疗系统的专家进行人工寻证;接收所述专家医疗系统返回的所述高频SPO人工寻证通过的信息;将接收到的寻证通过的所述高频SPO作为所述医疗知识图谱的目标SPO。8.一种医疗知识图谱的挖掘装置,其特征在于,所述装置包括:候选SPO挖掘模块,用于从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊...

【专利技术属性】
技术研发人员:纪登林徐伟建罗雨张峥
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1