基于级联自条件扩散网络的多样化图像描述生成方法技术

技术编号：44430509 阅读：23 留言：0更新日期：2025-02-28 18:42

本发明专利技术提供了一种基于级联自条件扩散网络的多样化图像描述生成方法，其特征在于，包括若干级联的子条件扩散模块，每一级子条件扩散模块根据训练目标将视觉标记、词向量、前一级子条件扩散模块的预测噪声获得该级子条件扩散模块的预测噪声，最后一级子条件扩散模块的的预测噪声根据可训练的语言模型头获取最终输出噪声，根据最终输出噪声获取图像描述。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种图像描述生成技术，特别是一种基于级联自条件扩散网络的多样化图像描述生成方法。

技术介绍

1、图像字幕生成是视觉和语言领域的一项基础任务，其目标是生成自然的句子来描述图像的关键语义。扩散模型（dms）因其简化的训练过程、稳定性以及高度并行化的非自回归句子生成能力，已成功应用于图像字幕生成。与传统的自回归方法逐个标记生成字幕不同，基于扩散的图像字幕生成方法从随机高斯噪声开始采样，并在图像特征的指导下迭代地细化它，最终产生整个描述语句。传统的基于扩散的图像字幕生成方法通常将图像嵌入作为去噪模型的条件，该模型被训练以从未受噪声干扰的数据中恢复原始句子数据。然而，这些方法仍然面临两个限制：（1）语言图像对比预训练模型（clip）中的投影层导致细粒度视觉语义的丢失；（2）生成样本的质量波动，重复词汇的问题。

技术实现思路

1、本专利技术提供了一种基于级联自条件扩散网络的多样化图像描述生成方法，包括若干级联的子条件扩散模块，每一级子条件扩散模块根据训练目标将视觉标记、词向量、前一级子条...

【技术保护点】

1.一种基于级联自条件扩散网络的多样化图像描述生成方法，其特征在于，包括若干级联的子条件扩散模块，每一级子条件扩散模块根据训练目标将视觉标记、词向量、前一级子条件扩散模块的预测噪声获得该级子条件扩散模块的预测噪声，最后一级子条件扩散模块的的预测噪声根据可训练的语言模型头获取最终输出噪声，根据获取图像描述。

2.根据权利要求1所述的方法，其特征在于，每一级子条件扩散模块包括如下步骤：

3.根据权利要求2所述的方法，其特征在于，步骤S100的具体过程包括：

4.根据权利要求3所述的方法，其特征在于，步骤S200的具体过程包括：

<...

【技术特征摘要】

2.根据权利要求1所述的方法，其特征在于，每一级子条件扩散模块包括如下步骤：

<...

【专利技术属性】
技术研发人员：刘兵，杨文杰，夏同强，刘鹏，刘浩，刘明明，
申请(专利权)人：徐州安创矿视智能科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人