System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种医科知识图谱构建方法及系统技术方案_技高网

一种医科知识图谱构建方法及系统技术方案

技术编号:40001144 阅读:8 留言:0更新日期:2024-01-09 03:37
本发明专利技术提供一种医科知识图谱构建方法及系统,涉及数据处理领域,其中,该方法包括:将图像模态的医学教科书转换成文字模态;对文字模态的医学教科书进行文本结构化,生成对应的树状的书本章节结构;基于树状的书本章节结构,生成多个初始实体;对生成的多个初始实体进行属性填充;对多个属性填充后的初始实体进行融合,生成多个医科实体;建立多个医科实体之间的图谱关系,生成医科知识图谱,具有提高医科知识图谱构建的效率及可靠度的优点。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,特别涉及一种医科知识图谱构建方法及系统


技术介绍

1、知识图谱是一种结构化的知识表示方式,能够有效地描述各种实体之间的关系和属性。在医学领域,医科知识图谱的构建对于医疗决策、临床指导以及疾病研究具有重要意义。在医科教育场景下,学生们需要记忆大量的医学知识,医科知识图谱无疑可以更好地帮助同学们深入透彻的掌握医科的知识体系。

2、目前,已经存在许多医科知识图谱构建的方法和系统,但是很多都是基于论文或者电子病例数据构建的,并不适用于教学场景。此外,知识图谱构建方法通常依赖于人工手动录入和标注大量的医学数据,前期成本较高,而且基于三元组抽取或者实体抽取和关系抽取的构建方案也难以保证抽取的实体及关系的可靠性。

3、因此,需要提供一种医科知识图谱构建方法及系统,用于提高医科知识图谱构建的效率及可靠度。


技术实现思路

1、本说明书实施例之一提供一种医科知识图谱构建方法,包括:将图像模态的医学教科书转换成文字模态;对文字模态的医学教科书进行文本结构化,生成对应的树状的书本章节结构;基于所述树状的书本章节结构,生成多个初始实体;对生成的多个初始实体进行属性填充;对多个属性填充后的初始实体进行融合,生成多个医科实体;建立所述多个医科实体之间的图谱关系,生成医科知识图谱。

2、在一些实施例中,所述将图像模态的医学教科书转换成文字模态,包括:依据版面分析算法、目标字体检测算法以及ocr算法,将图像模态的医学教科书转换成文字模态,其中,所述目标字体检测算法用于检测黑体字体、加粗字体和字体。

3、在一些实施例中,所述对文字模态的医学教科书进行文本结构化,生成对应的树状的书本章节结构,包括:根据文本框角点信息、版面分析结果及文字上下文二分类模型,将按行识别的文字进行拼接,还原成所述医学教科书中的段落;基于版面分析识别的目录结构在所述医学教科书中查找对应章节,生成和所述医学教科书的目录对应的章节结构树。

4、在一些实施例中,所述基于所述树状的书本章节结构,生成多个初始实体,包括:从所述章节结构树中每一个节点的名称、父子节点名称以及包含的段落内容,对每一个节点进行分类,其中,节点的类型为知识点概念、关系概念、属性概念和无关节点;和,依靠所述目标字体检测算法的检测结果及规则模板从还原的所述医学教科书的段落中提取概念名称,再经由一个二分类算法及规则模板结合的过滤器得到概念集合,生成所述多个初始实体。

5、在一些实施例中,所述基于所述树状的书本章节结构,生成多个初始实体,还包括:依据所述初始实体的实体名称以及所在的所述医学教科书的段落,对所述初始实体进行分类。

6、在一些实施例中,所述对生成的多个初始实体进行属性填充,包括:为所述初始实体填充别名属性;为所述初始实体填充描述。

7、在一些实施例中,所述对多个属性填充后的初始实体进行融合,生成多个医科实体,包括:对于每个所述初始实体,获取所述初始实体的别名信息、上下文信息及所在的章节结构中的路径信息;对于任意两个所述初始实体,基于两个所述初始实体的别名信息、上下文信息及所在的章节结构中的路径信息进行语义距离计算,满足预设条件,则将两个所述初始实体融合为一个实体,并将两个所述初始实体的属性信息进行整合。

8、在一些实施例中,所述建立所述多个医科实体之间的图谱关系,包括:基于父子节点的类型,构建父子节点关系;对于任意两个所述初始实体,确定两个所述初始实体之间是否存在共现性,若两个所述初始实体之间存在共现性,则给两个所述初始实体建立相关关系。

9、在一些实施例中,所述确定两个所述初始实体之间是否存在依赖关系,包括:基于以下公式计算两个所述初始实体之间的依赖性及共现得分:其中,a、b代表两个实体,cnta则代表实体a在所有医学教科书的章节片段中出现的次数,scorea表示实体a和实体b之间的依赖性,scoreb表示实体a和实体b之间的共现得分,cnt(a,b)表示实体a和实体b在所有医学教科书的章节片段中同时出现的次数;基于两个所述初始实体之间的依赖性及共现得分,确定两个所述初始实体之间是否存在共现性。

10、本说明书实施例之一提供一种医科知识图谱构建系统,包括:文字提取模块,用于将图像模态的医学教科书转换成文字模态;文本结构化模块,用于对文字模态的医学教科书进行文本结构化,生成对应的树状的书本章节结构;实体生成模块,用于基于所述树状的书本章节结构,生成多个初始实体;属性填充模块,用于对生成的多个初始实体进行属性填充;实体融合模块,用于对多个属性填充后的初始实体进行融合,生成多个医科实体;关系发现模块,用于建立所述多个医科实体之间的图谱关系,生成医科知识图谱。

11、相比于现有技术,本说明书提供的一种医科知识图谱构建方法及系统,至少具备以下有益效果:

12、1、使用图书资源作为医科知识图谱的语料来源,将教科书作为主要知识来源,通过文字提取、文本结构化等步骤构建教学场景下的医科知识图谱,实现自动化的知识图谱构建过程,以提供丰富的实体描述,便于学生学习理解,更加贴合学生日常学习内容;

13、2、通过从章节结构树中获取实体和从书中提取概念集两种方式生成实体,对每一个节点进行知识点概念、关系概念、属性概念以及无关节点的分类,从而实现快速且准确地构建医科知识图谱中的实体,减少实体遗漏;

14、3、将多本书的图谱数据进行融合,包括实体融合和关系发现,实体融合通过考虑实体的别名信息、上下文信息和章节结构路径信息进行语义距离计算,以实现实体对齐,减少了知识图谱中的无效节点,使得知识图谱更加清晰明了,并且,基于章节节点分类的关系建立和基于共现性的关系计算,较为精准地确定实体之间的关系。

本文档来自技高网...

【技术保护点】

1.一种医科知识图谱构建方法,其特征在于,包括:

2.根据权利要求1所述的一种医科知识图谱构建方法,其特征在于,所述将图像模态的医学教科书转换成文字模态,包括:

3.根据权利要求2所述的一种医科知识图谱构建方法,其特征在于,所述对文字模态的医学教科书进行文本结构化,生成对应的树状的书本章节结构,包括:

4.根据权利要求3所述的一种医科知识图谱构建方法,其特征在于,所述基于所述树状的书本章节结构,生成多个初始实体,包括:

5.根据权利要求4所述的一种医科知识图谱构建方法,其特征在于,所述基于所述树状的书本章节结构,生成多个初始实体,还包括:

6.根据权利要求1-5中任意一项所述的一种医科知识图谱构建方法,其特征在于,所述对生成的多个初始实体进行属性填充,包括:

7.根据权利要求6所述的一种医科知识图谱构建方法,其特征在于,所述对多个属性填充后的初始实体进行融合,生成多个医科实体,包括:

8.根据权利要求4所述的一种医科知识图谱构建方法,其特征在于,所述建立所述多个医科实体之间的图谱关系,包括:>

9.根据权利要求8所述的一种医科知识图谱构建方法,其特征在于,所述确定两个所述初始实体之间是否存在依赖关系,包括:

10.一种医科知识图谱构建系统,其特征在于,包括:

...

【技术特征摘要】

1.一种医科知识图谱构建方法,其特征在于,包括:

2.根据权利要求1所述的一种医科知识图谱构建方法,其特征在于,所述将图像模态的医学教科书转换成文字模态,包括:

3.根据权利要求2所述的一种医科知识图谱构建方法,其特征在于,所述对文字模态的医学教科书进行文本结构化,生成对应的树状的书本章节结构,包括:

4.根据权利要求3所述的一种医科知识图谱构建方法,其特征在于,所述基于所述树状的书本章节结构,生成多个初始实体,包括:

5.根据权利要求4所述的一种医科知识图谱构建方法,其特征在于,所述基于所述树状的书本章节结构,生成多个初始实体,还包括...

【专利技术属性】
技术研发人员:王晖陈方逸
申请(专利权)人:上海卓越睿新数码科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1