药品知识图谱构建方法及系统技术方案

技术编号:24353629 阅读:16 留言:0更新日期:2020-06-03 02:06
本发明专利技术公开了一种药品知识图谱构建方法,包括:确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;确定用于反映所述实体的知识要素间关系的关系/属性标记;获取药品说明书数据;建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;融合并保存所述三元组,得到药品知识图谱。本发明专利技术通过匹配模板和人工标注两种方式单独或组合来对药品说明书数据进行处理得到三元组,在人工标注之前对药品说明书数据进行简化融合,大大减少了文本的信息量,降低了人工标注的工作量;在匹配/标注完成后通过对齐处理、冲突处理等消除了文本中表述的不一致和内容的冲突,保证了文本的准确性。

Method and system of building drug knowledge map

【技术实现步骤摘要】
药品知识图谱构建方法及系统
本专利技术涉及知识图谱
,特别涉及一种药品知识图谱构建方法、系统以及一种计算机可读存储介质。
技术介绍
知识图谱本质上是语义网络(SemanticNetwork)的知识库,也可以把知识图谱简单理解为多关系图。知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。在知识图谱里,我们通常用“实体”来表达图里的节点、用“关系/属性”来表达图里的“边”。实体指的是现实世界中的事物比如地名、概念、药物、成分、公司等,关系用来表达不同实体之间的某种联系,属性用于描述实体的内在特征,属性与关系有时可以互换。现有技术中,缺少较为优质的药品知识图谱,原因在于很多药品知识图谱构建方案中使用字符串匹配或者实体识别模型从药品说明书里抽取知识的方案,效果其实并不理想,不管是匹配还是实体识别,都会存在大量的错误数据和遗漏数据。实体识别技术首先需要人工标注样本,然后训练实体识别模型。药品标注的场景,十分复杂,需要几千至几万的样本标注量,实际效果也没有字符串匹配抽取的效果准确。医药行业是一个特殊的行业,数据错误和缺失都会造成很大的健康隐患,据统计数据显示,我国每年有250万人因为错误用药而损害健康,其中死亡的有20万人,是全国交通事故死亡人数的两倍,可见药品知识的准确性特别重要。
技术实现思路
有鉴于此,本专利技术旨在提出一种药品知识图谱构建方法和系统,能够便捷高效的构建药品知识图谱,构建过程中通过对药品说明书数据的融合/合并,减少了需要处理的信息量,并且通过对模板匹配和人工标注结果进行融合处理,避免了药品知识图谱中的表述不一致和错误。为达到上述目的,本专利技术的技术方案是这样实现的:一种药品知识图谱构建方法,包括:确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;确定用于反映所述实体的知识要素间关系的关系/属性标记;获取药品说明书数据;建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;其中,所述三元组用于反映两个所述知识要素和所述关系/属性标记三者之间的关系;融合并保存所述三元组,得到所述药品知识图谱。进一步地,所述确定关于药品知识的若干类别的实体,包括:罗列出药品相关的所述知识要素;通过对所述知识要素进行归类以确定所述实体。进一步地,所述实体包括以下至少一个或几个类型:通用名实体、商品名实体、化学名实体、批准文号实体、剂型实体、规格实体、给药方式实体、给药时间实体、注意事项实体、症状实体、疾病实体、人群实体、药品类别实体、成分实体、性别实体、相互作用实体、药品配伍实体。进一步地,所述确定用于反映所述实体的知识要素间关系的关系/属性标记,包括:确定反应属于不同或相同类型实体的两个所述知识要素间关系的关系/属性标记。进一步地,所述确定关于药品知识的若干类别的实体,包括:所述实体包括通用名实体,所述通用名实体包含若干通用名;所述获取药品说明书数据,包括:将具有相同通用名的若干所述药品说明书数据,融合为一个所述药品说明书数据。进一步地,所述建立并使用匹配模板来匹配所述药品说明书数据,得到三元组,包括:所述匹配模板包括:字符槽位,用于定义对所述药品说明书数据进行匹配的字符大小和字符类型;所述词典槽位,用于定义词典,所述词典包含有实体的知识要素;辅助词,用于结合所述词典中的知识要素形成用于匹配所述药品说明书数据的关键词。进一步地,所述通过人工处理所述药品说明书数据,得到三元组,包括:人工标注所述药品说明书数据中所述实体的知识要素,并存储到预设的表格中;将所述表格进行形式转换,得到所述三元组。进一步地,所述融合并保存所述三元组,得到所述药品知识图谱,包括:在通过人工处理所述药品说明书数据的情况下,或者,在通过人工处理和匹配模板处理所述药品知识数据的情况下,进行以下至少一种融合处理:对齐处理,用于将相似的知识要素进行融合;冲突处理,用于基于客观事实构建冲突规则,根据所述冲突规则检测所述三元组的冲突错误,并通过人工处理的方式消除所述冲突错误。本专利技术还公开了一种药品知识图谱构建系统,包括:药品知识体系构建模块,用于:确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;以及,确定用于反映所述实体的知识要素间关系的关系/属性标记;药品知识获取模块,用于:获取药品说明书数据;以及药品知识建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;其中,所述三元组用于反映两个所述知识要素和所述关系/属性标记三者之间的关系;药品知识融合模块,用于融合所述三元组;药品知识保存模块,用于保存所述三元组以得到所述药品知识图谱。进一步地,所述确定关于药品知识的若干类别的实体,包括:罗列出药品相关的所述知识要素;通过对所述知识要素进行归类以确定所述实体。进一步地,所述实体包括以下至少一个或几个类型:通用名实体、商品名实体、化学名实体、批准文号实体、剂型实体、规格实体、给药方式实体、给药时间实体、注意事项实体、症状实体、疾病实体、人群实体、药品类别实体、成分实体、性别实体、相互作用实体、药品配伍实体。进一步地,所述确定用于反映所述实体的知识要素间关系的关系/属性标记,包括:确定反应属于不同或相同类型实体的两个所述知识要素间关系的关系/属性标记。进一步地,所述确定关于药品知识的若干类别的实体,包括:所述实体包括通用名实体,所述通用名实体包含若干通用名;所述获取药品说明书数据,包括:将具有相同通用名的若干所述药品说明书数据,融合为一个所述药品说明书数据。进一步地,所述建立并使用匹配模板来匹配所述药品说明书数据,得到三元组,包括:所述匹配模板包括:字符槽位,用于定义对所述药品说明书数据进行匹配的字符大小和字符类型;所述词典槽位,用于定义词典,所述词典包含有实体的知识要素;辅助词,用于结合所述词典中的知识要素形成用于匹配所述药品说明书数据的关键词。进一步地,所述通过人工处理所述药品说明书数据,得到三元组,包括:人工标注所述药品说明书数据中所述实体的知识要素,并存储到预设的表格中;将所述表格进行形式转换,得到所述三元组。进一步地,所述融合并保存所述三元组,得到所述药品知识图谱,包括:在通过人工处理所述药品说明书数据的情况下,或者,在通过人工处理和匹配模板处理所述药品知识数据的情况下,进行以下至少一种融合处理:对齐处理,用于将相似的知识要素进行融合;冲突处理,用于基于客观事实构建冲突规则,根据所述冲突规则检测所述三元组的冲突错误,并通过人工处理的本文档来自技高网...

【技术保护点】
1.一种药品知识图谱构建方法,其特征在于,包括:/n确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;/n确定用于反映所述实体的知识要素间关系的关系/属性标记;/n获取药品说明书数据;/n建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;其中,所述三元组用于反映两个所述知识要素和所述关系/属性标记三者之间的关系;/n融合并保存所述三元组,得到所述药品知识图谱。/n

【技术特征摘要】
1.一种药品知识图谱构建方法,其特征在于,包括:
确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;
确定用于反映所述实体的知识要素间关系的关系/属性标记;
获取药品说明书数据;
建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;其中,所述三元组用于反映两个所述知识要素和所述关系/属性标记三者之间的关系;
融合并保存所述三元组,得到所述药品知识图谱。


2.根据权利要求1所述的药品知识图谱构建方法,其特征在于,所述确定关于药品知识的若干类别的实体,包括:
罗列出药品相关的所述知识要素;
通过对所述知识要素进行归类以确定所述实体。


3.根据权利要求2所述的药品知识图谱构建方法,其特征在于,所述实体包括以下至少一个或几个类型:通用名实体、商品名实体、化学名实体、批准文号实体、剂型实体、规格实体、给药方式实体、给药时间实体、注意事项实体、症状实体、疾病实体、人群实体、药品类别实体、成分实体、性别实体、相互作用实体、药品配伍实体。


4.根据权利要求1所述的药品知识图谱构建方法,其特征在于,所述确定用于反映所述实体的知识要素间关系的关系/属性标记,包括:
确定反应属于不同或相同类型实体的两个所述知识要素间关系的关系/属性标记。
根据权利要求1所述的药品知识图谱构建方法,其特征在于,所述确定关于药品知识的若干类别的实体,包括:
所述实体包括通用名实体,所述通用名实体包含若干通用名;
所述获取药品说明书数据,包括:
将具有相同通用名的若干所述药品说明书数据,融合为一个所述药品说明书数据。


5.根据权利要求1所述的药品知识图谱构建方法,其特征在于,所述建立并使用匹配模板来匹配所述药品说明书数据,得到三元组,包括:
所述匹配模板包括:
字符槽位,用于定义对所述药品说明书数据进行匹配的字符大小和字符类型;
所述词典槽位,用于定义词典,所述词典包含有实体的知识要素;
辅助词,用于结合所述词典中的知识要素形成用于匹配所述药品说明书数据的关键词。


6.根据权利要求1所述的药品知识图谱构建方法,其特征在于,所述通过人工处理所述药品说明书数据,得到三元组,包括:
人工标注所述药品说明书数据中所述实体的知识要素,并存储到预设的表格中;
将所述表格进行形式转换,得到所述三元组。


7.根据权利要求1所述的药品知识图谱构建方法,其特征在于,所述融合并保存所述三元组,得到所述药品知识图谱,包括:
在通过人工处理所述药品说明书数据的情况下,或者,在通过人工处理和匹配模板处理所述药品知识数据的情况下,进行以下至少一种融合处理:
对齐处理,用于将相似的知识要素进行融合;
冲突处理,用于基于客观事实构建冲突规则,根据所述冲突规则检测所述三元组的冲突错误,并通过人工处理的方式消除所述冲突错误。


8.一种药品知识图谱构建系统,其特征在于,包括:
药品知识体系构建模块,用于:
确定关于药品知识的若干类别的实体,所述实体包含若干知识要...

【专利技术属性】
技术研发人员:刘大海
申请(专利权)人:北京左医健康技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1