一种乳腺癌电子病历的知识图谱构建方法和系统技术方案

技术编号:39326772 阅读:8 留言:0更新日期:2023-11-12 16:04
本发明专利技术公开了一种乳腺癌电子病历的知识图谱构建方法和系统,包括如下步骤:步骤一,乳腺癌电子病历医学文本数据集,构建乳腺癌实体关系本体;步骤二,构建基于乳腺癌实体关系本体的数据组,形成训练集;步骤三,基于训练集,采用GPlinker算法构建并训练乳腺癌实体关系结构化联合抽取模型;步骤四,基于训练完成的乳腺癌实体关系结构化联合抽取模型,识别出乳腺癌的不同模块实体关系;对实体基于语义进行实体对齐,进行临床语义标准化,标准化后进行知识融合;步骤五,将经过融合的知识,以三元组的形式导入图数据库中,实现对乳腺癌知识图谱的存储与可视化。通过本发明专利技术可以实现乳腺癌的治疗方式模块实体关系识别。治疗方式模块实体关系识别。治疗方式模块实体关系识别。

【技术实现步骤摘要】
一种乳腺癌电子病历的知识图谱构建方法和系统


[0001]本专利技术涉及数据挖掘领域,具体是一种乳腺癌电子病历的知识图谱构建方法和系统。

技术介绍

[0002]电子病历中包含着医疗领域的丰富知识,对于医疗健康信息服务有着重要的意义。电子病历也是一种非常宝贵的知识资源,其中包含了大量患者准确、详细的医疗信息。通过对电子病历完成知识提取任务,获得详细的医疗信息,可以作为辅助信息,帮助医生解决知识上的局限性问题,从而减少个人的医疗失误问题。
[0003]随着社会经济快速发展,人们的生活方式发生了较大的变化,再加上人口老龄化加剧,乳腺癌发病率明显上升。因此提高乳腺癌的发现率和乳腺癌的诊治率具有迫切的需要。所以构建基于乳腺癌知识图谱的医疗知识系统对于智慧医疗的发展具有一定的辅助意义。
[0004]基于乳腺癌的电子病历信息进行乳腺癌知识图谱构建,利用深度学习的方法,构建乳腺癌知识图谱,提出了一种深度学习GPlinker的方法,能够高效准确的对乳腺癌电子病历中的信息进行实体关系抽取。对乳腺癌检查、化疗用药等信息进行扩充,最终形成乳腺癌知识图谱。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种乳腺癌电子病历的知识图谱构建方法,包括如下步骤:
[0006]步骤一,乳腺癌电子病历医学文本数据集,构建乳腺癌实体关系本体;
[0007]步骤二,构建基于乳腺癌实体关系本体的数据组,形成训练集;
[0008]步骤三,基于训练集,采用GPlinker算法构建并训练乳腺癌实体关系结构化联合抽取模型;
[0009]步骤四,基于训练完成的乳腺癌实体关系结构化联合抽取模型,识别出乳腺癌的不同模块实体关系;对实体基于语义进行实体对齐,进行临床语义标准化,标准化后进行知识融合;
[0010]步骤五,将经过融合的知识,以三元组的形式导入图数据库中,实现对乳腺癌知识图谱的存储与可视化。
[0011]进一步的,所述的实体关系包括对实体关系本体进行数据的标注,构建乳腺癌电子病历医学文本数据中的头实体、关系、尾实体,所述的头实体为三元组中的第一个实体,所述的关系为头实体和尾实体之间的语义关联或连接,所述的尾实体为三元组中的第二个实体,表示与头实体相关的对象、属性或结束点。
[0012]进一步的,所述的构建基于实体关系的数据组,形成训练集,包括:将构建的乳腺癌电子病历医学文本数据中的头实体、关系、尾实体数据,构建(头实体,关系,尾实体)为一
条数据的数据形式,多条数据构成训练集。
[0013]进一步的,所述的基于训练集,采用GPlinker算法构建并训练乳腺癌实体关系结构化联合抽取模型,包括:
[0014]GPlinker算法是三元组(s,p,o)的抽取,具体采用(sh,st,p,oh,ot)(sh,st,p,oh,ot)的抽取,其中sh,st分别s的首、尾位置,而oh,ot则分别是o的首、尾位置;在GPlinker算法中通过GlobalPointer基于span分类的解码,对于m个实体类别,句子统一长度为L,每个实体类别对应一个头(head),即GlobalPointer的输出张量的shape为[batch_size,m,L,L].GlobalPointer的损失函数和circle loss类似,对于span分类,可得到如下的损失函数:
[0015][0016]其中Ωneg,Ωpos分别当前实体类别下的负样例span集合和正样例span集合,GlobalPointer引入一个额外的实体类别O,并规定所有实体span中预测分数大于0,所有非实体span的预测分数小于0,在esi

sj的基础上再添加esi

s0和es0

sj两项,其中s0等于0:
[0017][0018]把s0=0代入上式得到:
[0019][0020]进一步的,所述的基于训练完成的乳腺癌实体关系结构化联合抽取模型,识别出乳腺癌的不同模块实体关系;其中:所述的识别出乳腺癌的不同模块实体关系,包括治疗方式实体关系识别,检查模块实体关系识别,病理模块等级、类型、分期实体关系识别,病史模块中症状、既往、过敏史实体关系识别。
[0021]进一步的,所述的对实体基于语义进行实体对齐,进行临床语义标准化,标准化后进行知识融合,包括
[0022]在实施临床术语标准化时,采用统一的术语编码,通过对抽取出的医学实体,进行实体对齐,对重复性抽取知识进行去重、对相同含义不同描述词语进行归一,完成知识融合。
[0023]一种乳腺癌电子病历的知识图谱构建系统,应用所述的一种乳腺癌电子病历的知识图谱构建方法,包括数据处理模块、数据存储模块、通信模块、乳腺癌实体关系结构化联合抽取模块和显示模块;所述的数据存储模块、通信模块、乳腺癌实体关系结构化联合抽取模块和显示模块分别与所述的数据处理模块连接。
[0024]本专利技术的有益效果是:在知识抽取中,使用GPlinker算法通过全局指针网络
GlobalPointer和改进使用基于多标签交叉熵损失,解决嵌套实体和非嵌套实体的统一的实体关系联合抽取模型。相比于存在实体冗余、误差积累问题的管道式抽取模式,在乳腺癌医学文本上模型的效果有大幅提升。构建训练集,基于训练集数据,训练模型。基于训练好的模型,进行乳腺癌的治疗方式模块实体关系识别;检查模块实体关系识别;病理模块中等级、类型、分期等实体关系识别;病史模块中症状、既往、过敏史等实体关系的识别。
附图说明
[0025]图1为一种乳腺癌电子病历的知识图谱构建方法;
[0026]图2为一种乳腺癌电子病历的知识图谱构建系统;
[0027]图3为总体乳腺癌本体构建示意图;
[0028]图4为构造一个上三角矩阵来遍历所有有效的span示意图;
[0029]图5为乳腺癌领域知识图谱的部分实例示意图。
具体实施方式
[0030]下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。
[0031]为了使本专利技术的目的,技术方案及优点更加清楚明白,结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术,即所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0032]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0033]而且,术语“包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种乳腺癌电子病历的知识图谱构建方法,其特征在于,包括如下步骤:步骤一,乳腺癌电子病历医学文本数据集,构建乳腺癌实体关系本体;步骤二,构建基于乳腺癌实体关系本体的数据组,形成训练集;步骤三,基于训练集,采用GPlinker算法构建并训练乳腺癌实体关系结构化联合抽取模型;步骤四,基于训练完成的乳腺癌实体关系结构化联合抽取模型,识别出乳腺癌的不同模块实体关系;对实体基于语义进行实体对齐,进行临床语义标准化,标准化后进行知识融合;步骤五,将经过融合的知识,以三元组的形式导入图数据库中,实现对乳腺癌知识图谱的存储与可视化。2.根据权利要求1所述的一种乳腺癌电子病历的知识图谱构建方法,其特征在于,所述的实体关系包括对实体关系本体进行数据的标注,构建乳腺癌电子病历医学文本数据中的头实体、关系、尾实体,所述的头实体为三元组中的第一个实体,所述的关系为头实体和尾实体之间的语义关联或连接,所述的尾实体为三元组中的第二个实体,表示与头实体相关的对象、属性或结束点。3.根据权利要求2所述的一种乳腺癌电子病历的知识图谱构建方法,其特征在于,所述的构建基于实体关系的数据组,形成训练集,包括:将构建的乳腺癌电子病历医学文本数据中的头实体、关系、尾实体数据,构建(头实体,关系,尾实体)为一条数据的数据形式,多条数据构成训练集。4.根据权利要求3所述的一种乳腺癌电子病历的知识图谱构建方法,其特征在于,所述的基于训练集,采用GPlinker算法构建并训练乳腺癌实体关系结构化联合抽取模型,包括:GPlinker算法是三元组(s,p,o)的抽取,具体采用(sh,st,p,oh,ot)(sh,st,p,oh,ot)的抽取,其中sh,st分别s的首、尾位置,而oh,ot则分别是o的首、尾位置;在GPlinker算法中通过GlobalPointer基于span分类的解码,对于m个实体类别,句子统一长度为L,每个实体类别对应一...

【专利技术属性】
技术研发人员:曲建明蒲立新何明杰高忠军周滨张勇
申请(专利权)人:深圳成电金盘健康数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1