一种基于扩散模型的多模态编码对齐方法及装置制造方法及图纸

技术编号：44614125 阅读：15 留言：0更新日期：2025-03-14 13:06

本发明专利技术涉及一种基于扩散模型的多模态编码对齐方法及装置，属于多模态编码对齐技术领域，该方法包括：获取待进行语义编码的多模态数据，使用预先训练的多模态编码对齐模型对待进行语义编码的多模态数据进行条件扩散生成文本编码；将文本编码输入大模型解码器或作为RAG编码进行下游任务；其中，生成的文本编码作为多模态数据语义编码使用，与文本编码语义对齐。本发明专利技术中预先训练的多模态编码对齐模型利用扩散模型可学习的潜在多模态数据编码信息，通过一种扩散模型结构同时完成多模态的语义编码，同时使用大语言模型编码作为多任务优化方向，使得预先训练的多模态模型编码对齐模型结果更试用于下游任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多模态编码对齐，尤其涉及一种基于扩散模型的多模态编码对齐方法及装置。

技术介绍

1、随着生成式人工智能技术的不断发展，越来越多的大语言模型不在局限于单一模态的数据理解，这种数据理解任务的前提是多模态数据具有相同的语义编码，以往的方法通常使用对比学习来将多模态信息对(如文本-图像，文本-音频)映射到同一向量空间，这种方法通常需要大量文本对齐数据集，虽然这种方法可以做到多模态数据的编码统一，但通常单个模型只支持一种多模态对的编码，且在对接下游任务时，通常会引入信息损失，影响下游的语义理解任务性能。

技术实现思路

1、鉴于以上现有技术的不足，专利技术的目的在于提供一种基于扩散模型的多模态编码对齐方法及装置，预先训练的多模态编码对齐模型利用扩散模型可学习的潜在多模态数据编码信息，通过一种扩散模型结构同时完成多模态的语义编码，同时使用大语言模型编码作为多任务优化方向，使得预先训练的多模态模型编码对齐模型结果更试用于下游任务。

2、本专利技术的第一方面，提出了一种基于扩散模型...

【技术保护点】

1.一种基于扩散模型的多模态编码对齐方法，其特征在于，包括：

2.根据权利要求1所述的一种基于扩散模型的多模态编码对齐方法，其特征在于，所述预先训练的多模态编码对齐模型的训练步骤，包括：

3.根据权利要求2所述的一种基于扩散模型的多模态编码对齐方法，其特征在于，使用多模态联合扩散模型的回归损失训练多模态数据联合噪声分布预测模型，包括：

4.根据权利要求2所述的一种基于扩散模型的多模态编码对齐方法，其特征在于，预先训练的多模态编码对齐模型的总体损失为：

5.根据权利要求2所述的一种基于扩散模型的多模态编码对齐方法，其特征在于，对多模态数据对添...

【技术特征摘要】

1.一种基于扩散模型的多模态编码对齐方法，其特征在于，包括：

2.根据权利要求1所述的一种基于扩散模型的多模态编码对齐方法，其特征在于，所述预先训练的多模态编码对齐模型的训练步骤，包括：

4.根据权利要求2所述的一种基于扩散模型的多模态编码对齐方法，其特征在于，预先训练的多模态编码对齐模型的总体损失为：

5.根据权利要求2所述的一种基于扩散模型的多模态编码对齐方法，其特征在于，对多模态数据对添加噪声的过程表示为：

6.根据权利要求3所述的一...

【专利技术属性】
技术研发人员：林笑，杜忠田，康辉，陈利明，
申请(专利权)人：中电信数智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人