一种医学知识增强的图文预训练系统及方法技术方案

技术编号:37045982 阅读:10 留言:0更新日期:2023-03-29 19:24
本发明专利技术涉及医学人工智能技术领域,具体公开了一种医学知识增强的图文预训练系统及方法,所述系统包括:数据获取模块,用于获取一辆数据中的文本

【技术实现步骤摘要】
一种医学知识增强的图文预训练系统及方法


[0001]本专利技术涉及医学人工智能
,具体是一种医学知识增强的图文预训练系统及方法。

技术介绍

[0002]预训练系统是解决深度学习算法泛用性、降低数据需求的重要途径,尤其是利用图文多模态数据进行预训练。在过去几年中,图文预训练

微调的范式在自然图像领域取得了巨大成功。但在医疗这一特定场景下,通用的预训练系统却表现平平,造成这一点的原因主要来自于医学场景具有数据稀缺、专业知识依赖、可解释性要求高等特点。
[0003]经检索,发表于2022年欧洲计算机视觉国际会议(ECCV),公开网址为https://arxi v.org/abs/2204.09817的论文“Maki ng the Most of Text Semant i cs to Improve Bi omed i ca l Vi s i on

Language Process i ng”提出了一种基于报告文本特性的医疗图文预训练算法。其在预训练阶段,首先利用了报告文本中的语序无关性进行了文本增强,再利用报告中结论与发现的对应关系,采用经典对比学习的方式对预训练系统中的文本编码器进行了重新调整,最后再利用文本与图像的成对数据,还是利用对比学习的方式,完成整个预训练系统的训练。
[0004]现有技术存在如下缺点数据依赖性高。目前的方法大多直接处理原始文本,并利用图文是否匹配作为粗糙的监督信号。这导致现有的方法需要大量的数据对来提供充足的信息理解文本;无法理解专业医疗知识。医疗任务需要高度专业的知识辅助,但目前的现有预训练系统缺乏融合知识的能力,对于一些疾病的诊断能力都依赖于系统对于训练数据的简单记忆;低可解释性。目前医疗图文预训练模型无法对于病灶进行较为准确的定位,缺乏可解释性,大大限制了其辅助放射科医生诊断的能力。综上,我们提出一种医学知识增强的图文预训练系统及方法。

技术实现思路

[0005]本专利技术的目的在于提供一种医学知识增强的图文预训练系统及方法,本专利技术针对医疗场景下的图文预训练系统设计。解决现有的医疗图文预训练系统存在数据依赖性高、无法理解专业医疗知识、低可解释性等问题。使用医学实体过滤、医学描述编码、Transformer模态交互等技术利用医学专业知识增强了旧有的医疗图文预训练系统,在多种医疗场景下取得了显著的效果提升。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种医学知识增强的图文预训练系统,所述系统包括:
[0007]数据获取模块,用于获取一辆数据中的文本

图像数据对;
[0008]三元组化理模块;用于对于数据获取模块的医学文本进行三元组化的预处理,其中三元组包含三个部分:实体名称、实体位置、实体存在与否;
[0009]多模态融合训练模块,用于对图像进行编码并结合实体描述内容,通过融入编码
器。
[0010]作为本专利技术所述的一种优选实施方案,所述三元组化处理模块包括:
[0011]实体文本抽取模块,用于进行实体文本数据抽取并概括为实体三元合集;
[0012]实体文本转化模块,用于对实体名称以及实体位置分别转化为对应医学高度专业的医学描述语句和位置语句;
[0013]医学文本编码器,所述已选文本编码器用于对实体描述以及示意位置语句进行编码,得出编码三元组。
[0014]作为本专利技术所述的一种优选实施方案,所述多模态融合训练模块包括:
[0015]图像编码器,用于对图像信息进行编码;
[0016]融合编码器,用于结合编码三元组以及图像编码进行融合对比输出训练结果。
[0017]一种医学知识增强的图文预训练系统,所述方法包括:
[0018]步骤S1获取医疗数据中的文本

图像数据对;
[0019]步骤S2对于医学文本进行三元组化的预处理,得到编码三元组;
[0020]步骤S3对医疗数据中的图像进行编码处理,并结合编码信息进行预测判断,同时结合编码三元组对输出结果进行监督,完成训练。
[0021]作为本专利技术所述的一种优选实施方案,所述步骤S2详细内容如下:
[0022]步骤S2.1,基于医学文本实体抽取方法,对所述数据对进行处理,获得能够概括文本内容的实体三元组集合;
[0023]步骤S2.2对于三元组中的实体名称,利用额外的医学知识库,将实体名称进一步转化为医学高度专业的医学描述语句;
[0024]步骤S2.3对于三元组中的实体位置,利用一个文本模板,将位置单词实体转为位置语句;
[0025]步骤S2.4对三元组进行了如上转换后,利用医学文本编码器Φ
Text
,对实体描述以及位置语句进行编码,并将三元组中的实体存在与否转化外0/1的数字信息,从而获得编码后的编码三元组;
[0026]步骤S2.5综合文本数据中出现的所有编码三元组,整理出最常出现的实体描述语句,其中包含|Q|个编码实体描述,这些编码描述整合构成了一个实体描述查询集合Q;
[0027]步骤S2.6综合文本数据中出现的所有编码三元组,整理出最常出现的实体位置语句,其中包含|P|个编码实体位置,这些编码位置整合构成了一个位置候选集合P。
[0028]作为本专利技术所述的一种优选实施方案,所述步骤S3中单独考虑一个特定的文本

图像对,用字母代指特定的一张图像,用
T
代指与X对应的文本对,并依据步骤S2将
T
等价为一系列编码三元组,每个三元组中包含:实体描述编码e、实体位置编码p、实体存在编码s,对应的所述步骤S3详细步骤如下;
[0029]步骤S3.1利用一个图像编码器对图像进行编码:V=Φ
Image
(X),V为图像编码特征,Φ
Image
代表图像编码器;
[0030]步骤S3.2将图像编码特征V和实体描述查询集合Q输入一个基于Transformer结构的快模态融合编码器Φ
fusion
,融合编码器包含四层互注意力交互层,所述融合编码器的输出分别经过一个位置预测层和一个存在判断层,得到两个输出位置预测以及存在预测代表了预训练系统对于实体描述查询集合Q中各个实体的响应;
[0031]步骤S3.3利用各个互注意力层中的互注意力权重平均可以获得一个分割预测原图像X登高等宽,代表系统对于病灶在原图何处的置信程度;
[0032]步骤S3.4需要利用T对应的编码三元组对输出以及进行监督;
[0033]步骤S3.5结合深度学习梯度下降算法完成预训练模型的训练。
[0034]作为本专利技术所述的一种优选实施方案,所述步骤S3.3中对于T对应的编码三元组对输出以及进行监督的详细内容如下;
[0035]对于存在预测利用二元交叉熵进行监督,即对于位置预测利用对比损失进行监督,正样本由对应的三元组提供,负样本从位置候选集合P中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学知识增强的图文预训练系统,其特征在于,所述系统包括:数据获取模块,用于获取一辆数据中的文本

图像数据对;三元组化理模块;用于对于数据获取模块的医学文本进行三元组化的预处理,其中三元组包含三个部分:实体名称、实体位置、实体存在与否;多模态融合训练模块,用于对图像进行编码并结合实体描述内容,通过融入编码器。2.根据权利要求1所述的一种医学知识增强的图文预训练系统,其特征在于,所述三元组化处理模块包括:实体文本抽取模块,用于进行实体文本数据抽取并概括为实体三元合集;实体文本转化模块,用于对实体名称以及实体位置分别转化为对应医学高度专业的医学描述语句和位置语句;医学文本编码器,所述已选文本编码器用于对实体描述以及示意位置语句进行编码,得出编码三元组。3.根据权利要求2所述的一种医学知识增强的图文预训练系统,其特征在于,所述多模态融合训练模块包括:图像编码器,用于对图像信息进行编码;融合编码器,用于结合编码三元组以及图像编码进行融合对比输出训练结果。4.一种基于权利要求1

3所述医学知识增强的图文预训练系统,其特征在于,所述方法包括:步骤S1获取医疗数据中的文本

图像数据对;步骤S2对于医学文本进行三元组化的预处理,得到编码三元组;步骤S3对医疗数据中的图像进行编码处理,并结合编码信息进行预测判断,同时结合编码三元组对输出结果进行监督,完成训练。5.根据权利要求4所述的一种医学知识增强的图文预训练方法,其特征在于,所述步骤S2详细内容如下:步骤S2.1,基于医学文本实体抽取方法,对所述数据对进行处理,获得能够概括文本内容的实体三元组集合;步骤S2.2对于三元组中的实体名称,利用额外的医学知识库,将实体名称进一步转化为医学高度专业的医学描述语句;步骤S2.3对于三元组中的实体位置,利用一个文本模板,将位置单词实体转为位置语句;步骤S2.4对三元组进行了如上转换后,利用医学文本编码器Φ
Text
,对实体描述以及位置语句进行编码,并将三元组中的实体存在与否转化外0/1的数字信息,从而获得编码后的编码三元组...

【专利技术属性】
技术研发人员:王延峰吴超逸张小嫚谢伟迪张娅
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1