一种基于大语言模型的图像描述文本生成方法技术

技术编号：43899475 阅读：43 留言：0更新日期：2025-01-03 13:11

本发明专利技术公开了一种基于大语言模型的图像描述文本生成方法，通过构建图像描述文本生成模型，获取图像的实体信息和实体关系场景图；再将实体信息和实体关系场景图导至大语言模型中，获取图像的初始描述进一步润色，获取最终的润色文本。本发明专利技术能精准识别和描述图像中的各个对象，还能清晰地表达它们之间的复杂交互关系。这种思维链式的描述生成方式，不仅提高了模型生成描述的准确性，还使得描述更符合人类的认知习惯。通过逐步引导，最终生成的描述能够更好地传达图像的整体信息和意图。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像文本处理，具体涉及一种基于大语言模型的图像描述文本生成方法。

技术介绍

1、图像描述生成是一个结合了视觉和自然语言处理技术的复杂任务，其核心目标是让计算机能够准确识别和理解图像中的内容，并用自然语言生成描述。这项技术的进步不仅在学术研究中具有重要意义，还在实际应用中有广泛的前景，如自动标注图片、辅助视障人士、提高图像搜索引擎的性能等。通过不断的技术创新和优化，图像描述生成将会在未来的发展中扮演更加重要的角色。

2、图像描述生成需要解决的第一个挑战是图像中对象的识别问题。这涉及到计算机视觉技术的发展，如卷积神经网络（cnns），它们能够通过层层特征提取，逐步细化地理解图像中的各种元素，但仍存在局限性。目前用于image caption任务的数据集，虽然包含了大量的图像和描述，但仍然存在局限性。例如，某些物品可能在数据集中出现频率较低，导致模型在训练时无法充分学习到这些物品的特征和描述方式。加之，在某些图像中，物品可能被其他物品遮挡或重叠在一起，这使得识别这些物品变得更加困难。

3、此外图像描述生成...

【技术保护点】

1.一种基于大语言模型的图像描述文本生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于大语言模型的图像描述文本生成方法，其特征在于，步骤S1具体为：

3.如权利要求2所述的一种基于大语言模型的图像描述文本生成方法，其特征在于，步骤S2中的对象提取模块包括图像分割模块和图像编码器；

4.如权利要求3所述的一种基于大语言模型的图像描述文本生成方法，其特征在于，步骤S3具体为：基于已识别的实体信息构建相关提示输入大语言模型，获取需要进行文本描述的图像I中各个对象之间的交互关系；交互关系包括对象之间的相对位置、动作和状态；将对象和交互关系以图...

【技术特征摘要】

1.一种基于大语言模型的图像描述文本生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于大语言模型的图像描述文本生成方法，其特征在于，步骤s1具体为：

3.如权利要求2所述的一种基于大语言模型的图像描述文本生成方法，其特征在于，步骤s2中的对象提取模块包括图像分割模块和图像编码器；

4.如权利要求3所述的一种基于大语言模型的图像描述文本生成方法，其特征在于，步骤s3具体为：基于已识别的实体信...

【专利技术属性】
技术研发人员：王端，彭超，陈宇峰，江爱文，魏智，
申请(专利权)人：江西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人