一种跨模态文本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：43247540 阅读：31 留言：0更新日期：2024-11-05 17:32

本发明专利技术公开了一种跨模态文本生成方法、装置、电子设备及存储介质，该方法包括：加载图像‑文本迁移模型，图像‑文本迁移模型包括图像编码器和文本编码器；基于图像编码器构建图像分类模型，并对图像分类模型进行微调，更新图像分类模型；获取医学图像数据，基于图像分类模型对医学图像数据进行分类处理，得到分类结果；分类结果包括多个维度的分类标签以及分类标签对应的提示数据；基于文本编码器对分类标签对应的提示数据进行编码处理，形成特征空间；在特征空间中进行检索，得到与医学图像数据的医学图像特征匹配的提示数据组；基于提示数据组生成医学图像数据对应的文本数据。实现图像到文本的跨模态生成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医学图像分析，尤其涉及一种跨模态文本生成方法、装置、电子设备及存储介质。

技术介绍

1、随着深度学习等相关技术的迅猛发展和广泛应用，在计算机视觉、自然语言处理以及辅助医疗诊断等领域取得了显著成就，并展现出巨大潜力。医学设备的持续进步与广泛运用使得众多形式的医学检测涌现，包括影像、声波和报告等多种模态数据。然而，随着病人检测结果数量急剧增加，多种模态数据在实现更精准的病情检测方面虽有帮助，却也给临床医生增加了更多工作负担。

2、目前，相较于单一模态数据，多模态数据获取困难。

技术实现思路

1、本专利技术提供了一种跨模态文本生成方法、装置、电子设备及存储介质，以实现图像到文本的跨模态生成。

2、根据本专利技术的一方面，提供了一种跨模态文本生成方法，所述方法包括：

3、加载图像-文本迁移模型，所述图像-文本迁移模型包括图像编码器和文本编码器；

4、基于所述图像编码器构建图像分类模型，并对所述图像分类模型进行微调，更新所述图像分类模型；...

【技术保护点】

1.一种跨模态文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图像-文本迁移模型的训练方法，包括：

3.根据权利要求2所述的方法，其特征在于，所述映射模块由线性层和一个TransformerEncoder叠加构成。

4.根据权利要求2所述的方法，其特征在于，所述图像-文本数据集由图像-文本对构成，每一所述图像-文本对包括图像数据、文本数据和至少一个标签数据，所述标签数据分别与所述图像数据和所述文本数据对应；

5.根据权利要求4所述的方法，其特征在于，所述基于所述图像-文本数据集、所述目标文本编码器和所...

【技术特征摘要】

1.一种跨模态文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图像-文本迁移模型的训练方法，包括：

3.根据权利要求2所述的方法，其特征在于，所述映射模块由线性层和一个transformerencoder叠加构成。

5.根据权利要求4所述的方法，其特征在于，所述基于所述图像-文本数据集、所述目标文本编码器和所述目标图像编码器分别对两个所述映射模块进行训练，得到...

【专利技术属性】
技术研发人员：尹斯星，王星人，向新源，尹文宇，李书芳，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人