【技术实现步骤摘要】
医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
本专利技术涉及计算机应用
,尤其涉及一种医疗知识图谱的挖掘方法及装置、计算机设备及可读介质。
技术介绍
知识图谱作为一种新型的结构化的信息网络,能够在信息检索以及信息整合等领域起着越来越重要的角色。近年来,各个领域都在围绕知识图谱展开了一系列的研究。知识图谱在结构上由一些相互连接的实体以及它们的属性关系构成。知识图谱在内容上可以由一条条知识组成,每条知识可以表示为一个主体-关系-客体(Subject-Predicate-Object;SPO)三元组。其中主体S和客体O分别为两个实体,P为主体S和客体O之间的属性关系。因此,通过挖掘所有的SPO三元组,便可以构成相应的知识图谱。例如,在医疗领域中,知识图谱作为一个新兴的研发方向也具有非常重要的研究意义,尤其是知识图谱的挖掘也显得尤为重要。现有的医疗知识图谱,通过预先建立实体词表,如疾病词表、症状词表、体征词表、检验词表等,通过词表匹配的方式,从病历数据源中挖掘实体;然后再由医学专家人工审核并标注实体间的属性关系,从而挖掘各个SPO三元组。但是,对于庞大的病历数据源来说,采用上述现有方案挖掘医疗知识图谱的过程无法全自动化地进行,导致医疗知识图谱挖掘过程费时、费力,挖掘效率较低。
技术实现思路
本专利技术提供了一种医疗知识图谱的挖掘方法及装置、计算机设备及可读介质,用于提供一种省时、省力的医疗知识图谱挖掘方案,提高挖掘效率。本专利技术提供一种医疗知识图谱的挖掘方法,所述方法包括:从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾 ...
【技术保护点】
1.一种医疗知识图谱的挖掘方法,其特征在于,所述方法包括:从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;判断各所述高频SPO是否能够通过寻证;若能,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。
【技术特征摘要】
1.一种医疗知识图谱的挖掘方法,其特征在于,所述方法包括:从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;判断各所述高频SPO是否能够通过寻证;若能,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。2.根据权利要求1所述的方法,其特征在于,从预先采集的病历库中挖掘数个候选SPO,包括:从所述病历库的各病历中抽取候选诊断疾病实体;从各所述病历中挖掘所述候选诊断疾病实体对应的各属性关系及各所述属性关系指向的候选相关实体;将从同一所述病历中挖掘的一组所述候选诊断疾病实体、所述属性关系以及所述属性关系指向的候选实体,构成一个所述候选SPO,共挖掘得到所述数个候选SPO。3.根据权利要求2所述的方法,其特征在于,从所述病历库的各病历中抽取候选诊断疾病实体,包括:从所述病历库的各所述病历中的出院诊断、入院诊断或者初步诊断中抽取所述候选诊断疾病实体;或按照出院诊断的优先级大于入院诊断的优先级、所述入院诊断的优先级大于初步诊断的优先级,从所述病历库的各所述病历中、优先级最高的诊断中抽取所述候选诊断疾病实体。4.根据权利要求2所述的方法,其特征在于,从各所述病历中挖掘所述候选诊断疾病实体对应的各属性关系及各所述属性关系指向的候选相关实体,包括:从各所述病历的主诉和病史中挖掘所述候选诊断疾病实体对应的各所述属性关系及各所述属性关系指向的候选相关实体。5.根据权利要求1所述的方法,其特征在于,根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO,包括:计算所述数个候选SPO中的各所述候选SPO在所述病历库中被挖掘出的频次;从所述数个候选SPO中挖掘所述频次大于预设频次阈值的多个所述候选SPO,作为所述多个高频SPO,或者将所述数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个所述候选SPO,作为所述多个高频SPO;计算所述数个候选SPO中的各所述候选SPO的出现概率;各所述候选SPO的出现概率等于所述候选SPO被挖掘出的频次除以所述病历库对应的所述候选诊断疾病实体出现的总次数;从所述数个候选SPO中挖掘所述出现概率大于预设概率阈值的多个所述候选SPO,作为所述多个高频SPO;或者将所述数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个所述候选SPO,作为所述多个高频SPO;或者计算所述数个候选SPO中的各所述候选SPO在所述病历库中被挖掘出的频次以及各所述候选SPO的出现概率,从所述数个候选SPO中挖掘所述频次大于预设频次阈值、且所述出现概率大于预设概率阈值的多个所述候选SPO,作为所述多个高频SPO。6.根据权利要求1所述的方法,其特征在于,判断各所述高频SPO是否能够通过寻证,包括:判断各所述高频SPO是否能够在预设的权威书籍上寻找到的证据;若能,确定能够通过寻找,否则不能通过寻证。7.根据权利要求6或者7所述的方法,其特征在于,若所述高频SPO不能够通过寻证,所述方法还包括:向专家医疗系统发送携带对应的所述高频SPO的寻证请求,以供登录所述专家医疗系统的专家进行人工寻证;接收所述专家医疗系统返回的所述高频SPO人工寻证通过的信息;将接收到的寻证通过的所述高频SPO作为所述医疗知识图谱的目标SPO。8.一种医疗知识图谱的挖掘装置,其特征在于,所述装置包括:候选SPO挖掘模块,用于从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊...
【专利技术属性】
技术研发人员:纪登林,徐伟建,罗雨,张峥,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。