【技术实现步骤摘要】
本专利技术属于图像文本处理,具体涉及一种基于大语言模型的图像描述文本生成方法。
技术介绍
1、图像描述生成是一个结合了视觉和自然语言处理技术的复杂任务,其核心目标是让计算机能够准确识别和理解图像中的内容,并用自然语言生成描述。这项技术的进步不仅在学术研究中具有重要意义,还在实际应用中有广泛的前景,如自动标注图片、辅助视障人士、提高图像搜索引擎的性能等。通过不断的技术创新和优化,图像描述生成将会在未来的发展中扮演更加重要的角色。
2、图像描述生成需要解决的第一个挑战是图像中对象的识别问题。这涉及到计算机视觉技术的发展,如卷积神经网络(cnns),它们能够通过层层特征提取,逐步细化地理解图像中的各种元素,但仍存在局限性。目前用于image caption任务的数据集,虽然包含了大量的图像和描述,但仍然存在局限性。例如,某些物品可能在数据集中出现频率较低,导致模型在训练时无法充分学习到这些物品的特征和描述方式。加之,在某些图像中,物品可能被其他物品遮挡或重叠在一起,这使得识别这些物品变得更加困难。
3、此外图像描述生成
...【技术保护点】
1.一种基于大语言模型的图像描述文本生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于大语言模型的图像描述文本生成方法,其特征在于,步骤S1具体为:
3.如权利要求2所述的一种基于大语言模型的图像描述文本生成方法,其特征在于,步骤S2中的对象提取模块包括图像分割模块和图像编码器;
4.如权利要求3所述的一种基于大语言模型的图像描述文本生成方法,其特征在于,步骤S3具体为:基于已识别的实体信息构建相关提示输入大语言模型,获取需要进行文本描述的图像I中各个对象之间的交互关系;交互关系包括对象之间的相对位置、动作和状态;
...【技术特征摘要】
1.一种基于大语言模型的图像描述文本生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于大语言模型的图像描述文本生成方法,其特征在于,步骤s1具体为:
3.如权利要求2所述的一种基于大语言模型的图像描述文本生成方法,其特征在于,步骤s2中的对象提取模块包括图像分割模块和图像编码器;
4.如权利要求3所述的一种基于大语言模型的图像描述文本生成方法,其特征在于,步骤s3具体为:基于已识别的实体信...
【专利技术属性】
技术研发人员:王端,彭超,陈宇峰,江爱文,魏智,
申请(专利权)人:江西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。