医疗知识图谱构建方法、装置、设备及存储介质制造方法及图纸

技术编号:26602444 阅读:22 留言:0更新日期:2020-12-04 21:26
本发明专利技术涉及人工智能领域,公开了一种医疗知识图谱构建方法、装置、设备及存储介质。该方法基于采集数据源确定知识特征提取方式来针对性的解析医疗数据,从而获取精准的实体命名,并且还利用融合算法对实体命名不同但是本体相同的实体进行融合,统一实体,最后基于融合后的实体进行知识图谱的构建,这样不仅解决有关医学知识实体不统一所导致知识图谱精度低的问题,同时也为医疗领域的诊断手段和方法提供有力的支持和保障,能更合理高效的完成知识共享和管理。此外,本发明专利技术还涉及区块链技术,医疗知识图谱和实体可存储于区块链中。

【技术实现步骤摘要】
医疗知识图谱构建方法、装置、设备及存储介质
本申请涉及人工智能领域,具体涉及一种医疗知识图谱构建方法、装置、设备及存储介质。
技术介绍
知识图谱是一种图结构的知识库,属于知识工程的范畴,同时也是目前实现人工智能的重要基础措施。知识图谱在应用,扩展了原科学知识图谱的内涵,使其应用场景得到延伸。但是目前知识图谱的应用仍局限于搜索引擎及问答系统等方面,其他方面应用较少。医学领域中的病症、疾病与诊疗手段之间通常存在着错综复杂的关系,而现有的关系模型的数据存储模式不便于医学知识体系内容的扩充,因此在基于现有的医疗知识图谱进行医疗实体识别中,其识别精准度并不高,从而影响了工作效率。
技术实现思路
本专利技术的主要目的是解决现有的方法所构建出来的医疗知识图谱精准度较低的技术问题。本专利技术第一方面提供了一种医疗知识图谱构建方法,所述医疗知识图谱构建方法包括:利用网页爬虫工具从多个数据源中爬取医学知识;根据所述医学知识的数据来源确定对应的知识特征提取方式;根据所述知识特征提取方式从所述医学知识进行知识提取,形成医疗知识数据,其中所述医疗知识数据包括至少两种数据类型的数据;提取所述医疗知识数据中的实体、所述实体的属性信息以及各所述实体之间的关系信息;调用预置融合算法对各所述实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据;根据所述图谱数据构建医疗知识图谱。可选地,在本专利技术第一方面的第一种实现方式中,所述医学知识包括结构化数据、半结构化数据和非结构化数据;所述根据所述知识特征提取方式从所述医学知识进行知识提取,形成医疗知识数据包括:若所述医学知识为结构化数据,则通过构建正则表达式对所述医学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为医疗知识数据,其中,所述结构化数据包括医学专业书籍;若所述医学知识为半结构化数据,则采用Hadoop大数据技术从所述医学知识中筛选医学数据,通过正则表达式和数据指标对所述医学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为医疗知识数据,其中,所述半结构化数据为问诊数据;若所述医学知识为非结构化数据,则采用Hadoop大数据技术从所述医学知识中筛选医学数据,利用基于语义标注的POS-CBOW关联模型算法对所述医学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为医疗知识数据,其中,所述非结构化数据为网络医疗数据。可选地,在本专利技术第一方面的第二种实现方式中,所述通过正则表达式和数据指标对所述医学数据进行知识抽取包括:根据正则表达式对所述问诊数据中的句子进行分词处理,得到分词序列;利用TextRank关键词提取算法提取所述分词序列中的医学实体特征词,其中所述实体特征词包括疾病、症状和病因等特征。可选地,在本专利技术第一方面的第三种实现方式中,所述调用预置融合算法对各所述实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据包括:将抽取到的各所述实体进行分组,得到多个实体组;通过动态规划算法分别计算各实体组中实体之间的相似度;根据所述相似度对同组中的实体进行合并去重,得到图谱数据。可选地,在本专利技术第一方面的第四种实现方式中,所述调用预置融合算法对各所述实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据包括:通过概念抽象技术对各所述实体进行本体抽象,得到对应的实体本体;采用基于图神经网络构建的融合模型对各所述实体本体进行融合处理,得到初步融合结果;计算所述初步融合结果的融合程度值,并与预设融合度进行比较;若大于预设融合度,则输出图谱数据;若不大于预设融合度,则重新执行融合步骤,直到大于预设融合度后输出图谱数据。可选地,在本专利技术第一方面的第五种实现方式中,所述根据所述图谱数据构建医疗知识图谱包括:采用张量分解算法对所述图谱数据进行自学习和推理,从所述图谱数据中挖掘多维度的医疗实体;根据所述图谱数据和所述医疗实体构建所述医疗知识图谱。可选地,在本专利技术第一方面的第六种实现方式中,在所述根据所述图谱数据构建医疗知识图谱之后,还包括:调用数据监控接口通过互联网实时监控医疗数据网页中的医疗数据,并提取所述医疗数据中的实体和对应的属性信息更新至所述医疗知识图谱中。本专利技术第二方面提供了一种医疗知识图谱构建装置,所述医疗知识图谱构建装置包括:爬取模块,用于利用网页爬虫工具从多个数据源中爬取医学知识;匹配模块,用于根据所述医学知识的数据来源确定对应的知识特征提取方式;知识提取模块,用于根据所述知识特征提取方式从所述医学知识进行知识提取,形成医疗知识数据,其中所述医疗知识数据包括至少两种数据类型的数据;实体提取模块,用于提取所述医疗知识数据中的实体、所述实体的属性信息以及各所述实体之间的关系信息;融合模块,用于调用预置融合算法对各所述实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据;构建模块,用于根据所述图谱数据构建医疗知识图谱。可选地,在本专利技术第二方面的第一种实现方式中,所述医学知识包括结构化数据、半结构化数据和非结构化数据;所述匹配模块具体用于:若所述医学知识为结构化数据,则通过构建正则表达式对所述医学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为医疗知识数据,其中,所述结构化数据包括医学专业书籍;若所述医学知识为半结构化数据,则采用Hadoop大数据技术从所述医学知识中筛选医学数据,通过正则表达式和数据指标对所述医学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为医疗知识数据,其中,所述半结构化数据为问诊数据;若所述医学知识为非结构化数据,则采用Hadoop大数据技术从所述医学知识中筛选医学数据,利用基于语义标注的POS-CBOW关联模型算法对所述医学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为医疗知识数据,其中,所述非结构化数据为网络医疗数据。可选地,在本专利技术第二方面的第二种实现方式中,所述知识提取模块包括:分词单元,用于根据正则表达式对所述问诊数据中的句子进行分词处理,得到分词序列;实体提取单元,用于提取利用TextRank关键词提取算法提取所述分词序列中的医学实体特征词,其中所述实体特征词包括疾病、症状和病因等特征。可选地,在本专利技术第二方面的第三种实现方式中,所述融合模块包括:分组单元,用于将抽取到的各所述实体进行分组,得到多个实体组;计算单元,用于通过动态规划算法分别计算各实体组中实体之间的相似度;合并单元,用于根据所述相似度对同组中的实体进行合并去重,得到图谱构建数据。可选地,在本专利技术第二方面本文档来自技高网...

【技术保护点】
1.一种医疗知识图谱构建方法,其特征在于,所述医疗知识图谱构建方法包括:/n利用网页爬虫工具从多个数据源中爬取医学知识;/n根据所述医学知识的数据来源确定对应的知识特征提取方式;/n根据所述知识特征提取方式从所述医学知识进行知识提取,形成医疗知识数据,其中所述医疗知识数据包括至少两种数据类型的数据;/n提取所述医疗知识数据中的实体、所述实体的属性信息以及各所述实体之间的关系信息;/n调用预置融合算法对各所述实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据;/n根据所述图谱数据构建医疗知识图谱。/n

【技术特征摘要】
1.一种医疗知识图谱构建方法,其特征在于,所述医疗知识图谱构建方法包括:
利用网页爬虫工具从多个数据源中爬取医学知识;
根据所述医学知识的数据来源确定对应的知识特征提取方式;
根据所述知识特征提取方式从所述医学知识进行知识提取,形成医疗知识数据,其中所述医疗知识数据包括至少两种数据类型的数据;
提取所述医疗知识数据中的实体、所述实体的属性信息以及各所述实体之间的关系信息;
调用预置融合算法对各所述实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据;
根据所述图谱数据构建医疗知识图谱。


2.根据权利要求1所述的医疗知识图谱构建方法,其特征在于,所述医学知识包括结构化数据、半结构化数据和非结构化数据;
所述根据所述知识特征提取方式从所述医学知识进行知识提取,形成医疗知识数据包括:
若所述医学知识为结构化数据,则通过构建正则表达式对所述医学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为医疗知识数据,其中,所述结构化数据包括医学专业书籍;
若所述医学知识为半结构化数据,则采用Hadoop大数据技术从所述医学知识中筛选医学数据,通过正则表达式和数据指标对所述医学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为医疗知识数据,其中,所述半结构化数据为问诊数据;
若所述医学知识为非结构化数据,则采用Hadoop大数据技术从所述医学知识中筛选医学数据,利用基于语义标注的POS-CBOW关联模型算法对所述医学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为医疗知识数据,其中,所述非结构化数据为网络医疗数据。


3.根据权利要求2所述的医疗知识图谱构建方法,其特征在于,所述通过正则表达式和数据指标对所述医学数据进行知识抽取包括:
根据正则表达式对所述问诊数据中的句子进行分词处理,得到分词序列;
利用TextRank关键词提取算法提取所述分词序列中的医学实体特征词,其中所述实体特征词包括疾病、症状和病因等特征。


4.根据权利要求2所述的医疗知识图谱构建方法,其特征在于,所述调用预置融合算法对各所述实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据包括:
将抽取到的各所述实体进行分组,得到多个实体组;
通过动态规划算法分别计算各实体组中实体之间的相似度;
根据所述相似度对同组中的实体进行合并去重,得到图谱数据。


5.根据权利要求2所述...

【专利技术属性】
技术研发人员:张建峰刘道云
申请(专利权)人:康键信息技术深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1