一种基于统一框架的中文多模态数据生成方法技术

技术编号：43781725 阅读：42 留言：0更新日期：2024-12-24 16:17

一种基于统一框架的中文多模态数据生成方法，涉及自然语言处理与计算机视觉技术领域。为解决现有技术中存在的，现有的多模态大模型无法在统一的框架下高效地理解和生成包括文本、图像、视频及音频在内的多种模态数据的技术问题，本发明专利技术提供的技术方案为：包括：采集多模态数据并进行预处理；进行特征提取，得到文本特征向量和多模态特征向量；将所述多模态特征向量行特征对齐，然后将对齐后的多模态特征与所述文本特征向量进行拼接，得到用户输入数据的特征嵌入表示；嵌入表示输入多模态大模型，生成多模态内容；将生成的多模态内容进行整合，并按顺序输出。适合应用于理解和生成包括文本、图像、视频及音频在内的多模态数据的工作中。

全部详细技术资料下载

【技术实现步骤摘要】

涉及自然语言处理与计算机视觉，具体涉及基于统一框架的中文多模态数据生成。

技术介绍

1、在当今信息化快速发展的时代，文本、图像、视频和音频数据的产生与使用量急剧增加，带来了巨大的数据处理需求。特别是在多媒体技术和智能交互系统的背景下，如何有效地理解并生成多模态数据成了一个重要的研究方向和应用需求。传统的单模态处理系统(只处理一种类型的数据，如文本或图像)已经无法满足多样化的应用需求，而多模态处理系统(能同时处理多种类型数据)因其能提供更丰富的信息和更准确的交互反馈而受到重视。

2、现有的多模态数据处理技术主要面临以下挑战：

3、模态间信息融合不足：多种模态数据(如文本和视频)间的信息往往难以有效融合，导致最终生成的内容可能信息孤立、语义不连贯。

4、数据生成一致性问题：在生成如图像配合描述的文本时，常常难以保证文本与图像内容的一致性和相辅相成，影响了用户体验和系统的实用性。

5、灾难性遗忘：多模态系统在连续学习新的模态数据处理任务时，往往会忘记旧的知识(灾难性遗忘)，尤其是在模型需要不断更

【技术保护点】

1.一种基于统一框架的中文多模态数据生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法，其特征在于，所述预处理包括图像的尺寸变换、裁剪和归一化处理，视频的关键帧提取和音频的采样率转换。

3.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法，其特征在于，在所述多模态大模型中，通过模型中的专家加权打分综合分析所述特征嵌入表示，生成多模态内容。

4.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法，其特征在于，所述多模态数据包括图像、视频和音频。

5.根据权利要求1所述的一种基于...

【技术特征摘要】

1.一种基于统一框架的中文多模态数据生成方法，其特征在于，包括：

4.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法，其特征在于，所述多模态数据包括图像、视频和音频。

5.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法，其特征在于，将预处理后的所述多模态数据...

【专利技术属性】
技术研发人员：赵铁军，朱聪慧，杨沐昀，杨宇辰，曹海龙，徐冰，吴家恒，王思睿，马骜宇，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人