医疗知识图谱构建方法技术

技术编号:25550791 阅读:59 留言:0更新日期:2020-09-08 18:50
本发明专利技术公开一种医疗知识图谱构建方法,能够充分利用多重网络知识库来动态构建知识图谱,完整性好、准确性高。本发明专利技术的医疗知识图谱构建方法,包括如下步骤:(10)医疗文本数据获取:通过网络爬虫技术,爬取多个数据源中包括疾病描述、症状描述、问答、评论的医疗文本数据;(20)医疗知识图谱获取:通过词典和规则的方法,从医疗文本数据提取医学实体和各医学实体之间的关系,得到包括医学实体图谱和医学实体关系图谱的医疗知识图谱;(30)知识图谱存储:将医疗知识图谱存储在Neo4j图数据库中;(40)实体融合:采用集成实体对齐的方法进行实体融合。

【技术实现步骤摘要】
医疗知识图谱构建方法
本专利技术涉及医疗
,具体地,涉及一种医疗知识图谱构建方法。
技术介绍
知识图谱从图形上描述了现实世界中的概念和实体之间的复杂关系,让互联网通过一种人类更容易接受的认知世界的方式去传达信息,去组织、管理信息,也让人们更好的理解知识。知识图谱还可以结合大数据、深度学习等为我国的智能科技的发展做出巨大的贡献。知识图谱设计到很多的技术,其中主要包括知识表示、图谱构建和图谱应用三个方面。知识表示是针对计算机内部表示和处理客观事件知识的方法研究;知识图谱侯建解决如何构建一个算法从客观世界或各种数据资源获取客观事件的互联网知识,知识图谱应用的主要任务是研究如何利用知识图谱去更好的解决现实生活中的实际问题。知识图谱的构建需要基于特定的知识表示模型,利用几区学习和信息抽取等技术从复杂多样的互联网信息中抽取出有价值的信息,为知识图谱提供数据来源,为图谱构建奠定基础,其中核心的技术是信息抽取和语义集成。知识图谱的构建方法受很多因素影响,主要三个因素:一种是从什么样的数据资源中学习知识,原始网页数据包括结构化(例如数据库)本文档来自技高网...

【技术保护点】
1.一种医疗知识图谱构建方法,其特征在于,包括如下步骤:/n(10)医疗文本数据获取:通过网络爬虫技术,爬取多个数据源中包括疾病描述、症状描述、问答、评论的医疗文本数据;/n(20)医疗知识图谱获取:通过词典和规则的方法,从医疗文本数据提取医学实体和各医学实体之间的关系,得到包括医学实体图谱和医学实体关系图谱的医疗知识图谱;/n(30)知识图谱存储:将医疗知识图谱存储在Neo4j图数据库中;/n(40)实体融合:采用集成实体对齐的方法进行实体融合。/n

【技术特征摘要】
1.一种医疗知识图谱构建方法,其特征在于,包括如下步骤:
(10)医疗文本数据获取:通过网络爬虫技术,爬取多个数据源中包括疾病描述、症状描述、问答、评论的医疗文本数据;
(20)医疗知识图谱获取:通过词典和规则的方法,从医疗文本数据提取医学实体和各医学实体之间的关系,得到包括医学实体图谱和医学实体关系图谱的医疗知识图谱;
(30)知识图谱存储:将医疗知识图谱存储在Neo4j图数据库中;
(40)实体融合:采用集成实体对齐的方法进行实体融合。


2.根据权利要求1所述的医疗知识图谱构建方法,其特征在于:
所述多个数据源至少包括百度百科、丁香园、药监局数据源。


3.根据权利要求1所述的医疗知识图谱构建方法,其特征在于,所述(20)医疗知识图谱获取步骤包括:
(21)指定规则库:根据每类文本特点,指定规则库;
(22)实体抽取:输入需要提取实体的文本,根据数据是否规范,分别进行实体抽取,得到医疗知识图谱。


4.根据权利要求3所述的医疗知识图谱构建方法,其特征在于,所述(22)实体抽取步骤包括:
(221)对于规范数据,直接根据文本匹配规则,抽取实体,所述规则模型如下:
(i)在瑶琴适应症标签中,根据本品用于|*、本品可用于|*、本品适用于|*规则获取疾病或者症状实体;
(ii)在药品名称标签中,根据通用名称:|*、英文名称:|*、商品名称:|*规则获取瑶琴实体及其别名属性;
(iii)在成分标签中,根据本品成分为|*、本品活性成文为|*规则获取成份实体;
(iiii...

【专利技术属性】
技术研发人员:唐公成徐雷
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1