The invention provides a method and device for constructing medical knowledge atlas, which can make full use of data-driven and knowledge-driven to construct knowledge atlas and solve the technical problem that the same type of medical entities are not closely related in clinic. The method includes: extracting the target entity from medical data by natural language processing technology; determining the frequent itemsets of the specified class entity according to Apriori algorithm, and obtaining the entity group of the specified class; taking the target entity and the entity group as nodes in the knowledge map, calculating the strength index between each node. The medical knowledge map is stored in the Neo4j diagram database.
【技术实现步骤摘要】
医疗知识图谱构建方法及装置
本专利技术涉及医疗
,具体地,涉及一种医疗知识图谱构建方法及装置。
技术介绍
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。目前,知识图谱在医疗领域的应用是基于医疗知识图谱的人机问答,相关技术多是通过提取用户的问题中的关键词作为知识点,并在数据库内部进行一对一的实体映射来找出知识点的对应项,然后将对应项作为答案反馈给用户。由上可知,现有的医疗知识图谱对知识点仅建立了一对一的关系映射网,知识点与知识点之间的联系十分薄弱,无法进行知识的推理,因此其反馈给用户的答案往往并不准确,甚至缺乏针对性,所答非所问。
技术实现思路
本专利技术实施例提供一种医疗知识图谱构建方法及装置,能够充分利用数据驱动和知识驱动来构建知识图谱,解决临床上相同类型的医疗实体间联系不紧密的技术问题。为了实现上述目的,本专利技术第一方面提供一种医疗知识图谱构建方法,所述方法包括:通过自然语言处理技术分词从医疗资料中抽取目标实体 ...
【技术保护点】
1.一种医疗知识图谱构建方法,其特征在于,所述方法包括:通过自然语言处理技术分词从医疗资料中抽取目标实体;根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;将构建的所述医疗知识图谱存储在Neo4j图数据库中。
【技术特征摘要】
1.一种医疗知识图谱构建方法,其特征在于,所述方法包括:通过自然语言处理技术分词从医疗资料中抽取目标实体;根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;将构建的所述医疗知识图谱存储在Neo4j图数据库中。2.根据权利要求1所述的方法,其特征在于,所述医疗资料包括医疗指南、专家经验和电子病历中的至少一者;和/或,在所述根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组之前,所述方法还包括:针对从所述医疗资料中抽取到的所述目标实体执行异构资源的整合,以进行实体对齐。3.根据权利要求1所述的方法,其特征在于,所述目标实体包括以下实体:症状、疾病、单检查;所述指定类实体包括所述单检查实体,所述指定类的实体组包括检查组。4.根据权利要求3所述的方法,其特征在于,所述将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱,包括:通过如下第一公式计算疾病实体到症状实体的强度指标:其中,|dj|表示电子病历中疾病dj的个数,|D|表示电子病历样本总数,N表示疾病类别总数;当得疾病dj会有症状sk这条知识存在于所述医疗资料中时,x=1,否则x=0,α为一个常数,|s|表示症状总类数,|skdj|表示疾病dj含有症状sk的电子病历份数;通过如下第二公式计算疾病实体到单检查实体的强度指标:其中,当用检查ei来验证疾病dj这条知识存在于所述医疗资料时,x=1,否则x=0,|E|表示单检查的总类数,|eidj|表示疾病dj含有检查ei但不包含含有ei的检查组合的电子病历份数;通过如下第三公式计算疾病实体到检查组实体的强度指标:其中,|E′idj|表示疾病dj含有检查组合Ei’但不包括含有Ej’的检查组合的电子病历份数,|Ej’|表示频繁项集项数为j的检查组合的类数,即:若Ej’为任意一个检查组合,且则|E′idj|表示电子病历中患者患疾病dj,且做了Ei’检查组合,但未做检查组合Ej’的电子病历份数。5.根据权利要求3所述的方法,其特征在于,所述医疗知识图谱还包括涉及到收费的实体分别对应的费用...
【专利技术属性】
技术研发人员:丁帅,李玲,杨善林,王浩,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。