基于多模态预训练模型的跨模态理解与生成方法和装置制造方法及图纸

技术编号：30639477 阅读：44 留言：0更新日期：2021-11-04 00:31

本发明专利技术提供一种基于多模态预训练模型的跨模态理解与生成方法和装置，方法包括：确定待处理的多模态信息，多模态信息包括图像、文本和音频；将多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到多模态信息的融合表示，将融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果。本发明专利技术提供的方法和装置，结合图像、文本和音频三个模态进行理解与生成，实现了信息的充分应用。跨模态理解和跨模态生成两个任务的结合，使得多模态预训练模型能够更加全面地进行特征提取和跨模态关联构建，从而进一步提高跨模态理解与生成的准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态预训练模型的跨模态理解与生成方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种基于多模态预训练模型的跨模态理解与生成方法和装置。

技术介绍

[0002]多模态预训练是一个跨越多个领域、涉及多种模态信息的交叉学科。该任务旨在大规模训练一个统一框架，从而实现各种跨模态理解与生成任务，比如图像识别、图像生成、视觉问答、文本生成等。
[0003]目前在进行多模态预训练时，常见的方法和框架多只考虑单个模态或者两个模态，例如图像和文本，又例如视频和文本，极容易忽略周围环境中普遍存在的其他信息，影响跨模态理解和生成的效果。且目前的多模态通常只关注跨模态理解，或者只关注跨模态生成，若要实现跨模态理解和生成通常需要训练两个相互独立框架，导致了大量的计算资源和时间成本的损失。

技术实现思路

[0004]本专利技术提供一种基于多模态预训练模型的跨模态理解与生成方法和装置，用以解决现有的跨模态理解与生成的问题。
[0005]本专利技术提供一种基于多模态预训练模型的跨模态理解与生成方法，包括：
[0006本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模态预训练模型的跨模态理解与生成方法，其特征在于，包括：确定待处理的多模态信息，所述多模态信息包括图像、文本和音频；将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示，将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果；所述理解和/或生成单元包括理解模块和生成模块，其中所述理解模块基于所述融合表示执行跨模态理解任务，所述生成模块基于所述融合表示执行跨模态生成任务。2.根据权利要求1所述的基于多模态预训练模型的跨模态理解与生成方法，其特征在于，所述将所述多模态信息输入至多模态预训练模型，学习所述多模态信息的相互关联，得到所述多模态信息的融合表示，将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务，得到理解结果和/或生成结果，包括：将所述图像、文本和音频输入至所述多模态预训练模型的单模态编码器，得到所述单模态编码器输出的图像特征、文本特征和音频特征；将所述图像特征、文本特征和音频特征输入至所述多模态预训练模型的跨模态编码器，得到所述跨模态编码器输出的融合表示，所述融合表示是基于所述图像特征、文本特征和音频特征之间的跨模态关联确定的；将所述融合表示输入至所述理解模块，得到所述理解模块输出的理解结果，和/或，将所述融合表示输入至所述生成模块，得到所述生成模块输出的生成结果。3.根据权利要求1所述的基于多模态预训练模型的跨模态理解与生成方法，其特征在于，所述多模态预训练模型是基于元素级建模、模态级建模和样本级建模中的至少一种训练得到的；所述元素级建模是基于样本多模态信息中任一元素掩盖模态信息和其他完整模态信息，预测所述任一元素掩盖模态信息中被掩盖的元素；所述模态级建模是基于样本多模态信息中的两种完整模态信息，重构/生成与所述两种完整模态信息相匹配的第三种模态信息；所述样本级建模是基于随机组合的三种模态信息，预测所述三种模态信息之间的匹配关系。4.根据权利要求3所述的基于多模态预训练模型的跨模态理解与生成方法，其特征在于，所述元素级建模包括掩盖文本建模、掩盖图像建模和掩盖音频建模...

【专利技术属性】
技术研发人员：刘静，朱欣鑫，刘飞，郭龙腾，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人