面向多源数据的医疗行业高可信度知识图谱的构建方法技术

技术编号:37794064 阅读:14 留言:0更新日期:2023-06-09 09:24
本发明专利技术公开了面向多源数据的医疗行业高可信度知识图谱的构建方法,涉及到医疗信息化技术领域,包括以下步骤:S1,可信知识源评估;S2,知识源采集;S3,知识源分析;S4,知识抽取;S5,知识质量评估和融合;S6,知识图谱构建。本发明专利技术中面向多源数据的医疗行业高可信度知识图谱的构建方法,方法流程更加优化,增加了知识源可信度评估、知识源结构分析、知识图谱本体设计和知识抽取模型训练等步骤,细化了知识源评估、知识可信度计算方法和基于预处理的知识抽取模型等技术细节,调整了知识融合和知识质量评估的先后关系,最终完成了面向医疗领域高可信度知识图谱构建的全流程方案。高可信度知识图谱构建的全流程方案。

【技术实现步骤摘要】
面向多源数据的医疗行业高可信度知识图谱的构建方法


[0001]本专利技术涉及医疗信息化
,特别涉及面向多源数据的医疗行业高可信度知识图谱的构建方法。

技术介绍

[0002]随着大数据、AI(人工智能)与医疗行业的结合,基于知识化数据的认知智能越来越受到业界的关注,基于知识推理进行导诊、辅诊已开始在一些医教进行试用,基于AI的病案、处方的辅诊检查也成为医疗智能化的必然趋势。医疗AI要求准确性高,容错性差,AI模型的认知基础就是通过知识处理技术建立的知识图谱。构建医疗领域的知识图谱,其核心在于知识图谱中信息的高可靠性,这与其他领域追求知识的完整性有较大差别。
[0003]现有关于“医疗领域知识图谱构建方法、装置、设备及存储介质”的技术方案(专利申请号为:CN20201059233.3),此方案描述了医疗领域知识图谱构建方法的方法和过程,其中大体流程包括知识源采集,知识抽取形成知识库,知识数据加工,知识数据质量评估,知识图谱构建和知识图谱医学相关知识的智能问答应用。
[0004]但医疗领域知识图谱构建方法依旧有待优化提升。
[0005]因此,提出面向多源数据的医疗行业高可信度知识图谱的构建方法来解决上述问题很有必要。

技术实现思路

[0006]本专利技术的目的在于提供面向多源数据的医疗行业高可信度知识图谱的构建方法,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:面向多源数据的医疗行业高可信度知识图谱的构建方法,包括以下步骤:<br/>[0008]S1,可信知识源评估:对知识源的可信度进行评估,分离出可信度较高的知识源;
[0009]S2,知识源采集:对完成可信度较高的知识源的知识采集和存储;
[0010]S3,知识源分析,半结构化文本处理:对知识源进行知识结构分析和知识元素的半结构化文本处理;
[0011]S4,知识抽取:基于知识结构分析的结果,对半结构化文本的文本使用NLP技术进行文本抽取,形成以知识三元组为表示形式的基础知识结构;
[0012]S5,知识质量评估和融合,基于业内标准对医疗实体进行标准化,完成知识的融合;
[0013]S6,知识图谱构建,对抽取的知识三元组进行知识质量的评估,利于知识溯源技术降低众包人员的知识要求,提高知识评估的效率和质量,将存在异议的知识将被进行标记或去除,基于融合后的知识三元组和知识图谱的本体设计,利用图计算技术形成高可信度的医疗行业知识图谱,可用于导诊、辅诊等的智能推理辅助应用的基础支撑。
[0014]优选的,S2中知识源采集的同时开展对医疗领域知识图谱的本体设计。
[0015]优选的,S2中基于知识图谱的本体设计的需求,开发对于的NLP模型,用于S4中知识三元组的抽取。
[0016]优选的,S1中对知识源的可信度进行评估,知识源可信度评估的结果是一个后续知识可信度评估过程中需要用到的一个系数,每个知识源的可信度系数按如下三个维度标准进行评估。
[0017]优选的,S4中知识三元组为每个段落形成一个存储单元,每个知识点形成一个至少三层的树状结构存储形式,即知识点

知识描述结构

文本段落。
[0018]优选的,医疗领域知识图谱的本体设计包括对实体、实体属性、关系、关系属性的设计。
[0019]优选的,基于现有知识抽取模型,对第三步形式的半结构化文本数据进行知识抽取,获取以“知识点

知识描述结构

文本段落”为知识表达方式的知识三元组,并对抽取的每个三元组记录具体的出处和位置。
[0020]本专利技术的技术效果和优点:
[0021]本专利技术中面向多源数据的医疗行业高可信度知识图谱的构建方法,方法流程更加优化,增加了知识源可信度评估、知识源结构分析、知识图谱本体设计和知识抽取模型训练等步骤,细化了知识源评估、知识可信度计算方法和基于预处理的知识抽取模型等技术细节,调整了知识融合和知识质量评估的先后关系,最终完成了面向医疗领域高可信度知识图谱构建的全流程方案。
[0022]本专利技术技术方案的优化,知识抽取作为知识图谱构建的核心技术,基于传统机器学习的实体识别方法取得了很大的成功,可以借助丰富的外部知识。
[0023]本专利技术更加聚焦知识图谱的高可信度和质量,具体区别如:在整个工程前期增加了知识图谱设计过程,提高了方案的可用性;在知识源采集的过程中,增加知识源的评价方法,从根本上保障知识来源的可靠性;知识源采集后进行知识结构分析,形成原始知识库,知识抽取的过程基于原始知识库进行,充分利用原始知识源的知识架构,提高了知识抽取效率和准确度;知识数据加工算法基于最新技术方案进行了优化;知识质量评估增加了知识“三元组”的回溯验证,极大降低了“众包”验证的成本;在知识图谱构建过程中采用实体标准化技术,增加了构建的知识图谱标准性和一致性。
附图说明
[0024]图1为本专利技术面向多源数据的医疗行业高可信度知识图谱的构建方法流程示意图。
具体实施方式
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]本专利技术提供了如图1所示的面向多源数据的医疗行业高可信度知识图谱的构建方法,本专利技术中提出面向医疗行业的高可信度知识图谱构建方法和流程,其中关于知识源评
估和可信度计算部分是方案的重点内容;
[0027]本专利技术中提出高可信度知识源的获取、知识源结构分析、知识抽取、知识图谱元素溯源的方法,这些方法可以大大降低知识图谱的构建成本,是技术优化的核心内容。
[0028]首先对多元医疗知识数据源进行可信度评估,形成各个知识源的可信度系数;
[0029]对完成可信度较高的知识源的知识采集和存储;
[0030]对知识源进行知识结构分析和知识元素的半结构化文本处理;
[0031]同时开展对医疗领域知识图谱的本体设计;
[0032]基于知识图谱的本体设计的需求,开发对于的NLP(自然语言处理)模型,用于知识三元组的抽取;
[0033]基于知识结构分析的结果,对半结构化文本的文本使用NLP技术进行文本抽取,形成以三元组为表示形式的基础知识结构;
[0034]基于业内标准对医疗实体进行标准化,完成知识的融合;
[0035]对抽取的知识三元组进行知识质量的评估,利于知识溯源技术降低众包人员的知识要求,提高知识评估的效率和质量,将存在异议的知识将被进行标记或去除;
[0036]基于融合后的知识三元组和知识图谱的本体设计,利用图计算技术形成高可信度的医疗行业知识图谱,可用于导诊、辅诊等的智能推理辅助应用的基础支撑。
[0037]为进一步更加详本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向多源数据的医疗行业高可信度知识图谱的构建方法,其特征在于:包括以下步骤:S1,可信知识源评估:对知识源的可信度进行评估,分离出可信度较高的知识源;S2,知识源采集:对完成可信度较高的知识源的知识采集和存储;S3,知识源分析,半结构化文本处理:对知识源进行知识结构分析和知识元素的半结构化文本处理;S4,知识抽取:基于知识结构分析的结果,对半结构化文本的文本使用NLP技术进行文本抽取,形成以知识三元组为表示形式的基础知识结构;S5,知识质量评估和融合,基于业内标准对医疗实体进行标准化,完成知识的融合;S6,知识图谱构建,对抽取的知识三元组进行知识质量的评估,利于知识溯源技术降低众包人员的知识要求,提高知识评估的效率和质量,将存在异议的知识将被进行标记或去除,基于融合后的知识三元组和知识图谱的本体设计,利用图计算技术形成高可信度的医疗行业知识图谱,可用于导诊、辅诊等的智能推理辅助应用的基础支撑。2.根据权利要求1所述的面向多源数据的医疗行业高可信度知识图谱的构建方法,其特征在于:所述S2中知识源采集的同时开展对医疗领域知识图谱的本体设计。3.根据权利要求1所述的面向多源数据的医疗行业高可信度知识图谱的构建方法,其特征在于:所述S2中基于知识图谱的本体...

【专利技术属性】
技术研发人员:田野高勇程龙龙袁丁
申请(专利权)人:中电云脑天津科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1