【技术实现步骤摘要】
涉及自然语言处理与计算机视觉,具体涉及基于统一框架的中文多模态数据生成。
技术介绍
1、在当今信息化快速发展的时代,文本、图像、视频和音频数据的产生与使用量急剧增加,带来了巨大的数据处理需求。特别是在多媒体技术和智能交互系统的背景下,如何有效地理解并生成多模态数据成了一个重要的研究方向和应用需求。传统的单模态处理系统(只处理一种类型的数据,如文本或图像)已经无法满足多样化的应用需求,而多模态处理系统(能同时处理多种类型数据)因其能提供更丰富的信息和更准确的交互反馈而受到重视。
2、现有的多模态数据处理技术主要面临以下挑战:
3、模态间信息融合不足:多种模态数据(如文本和视频)间的信息往往难以有效融合,导致最终生成的内容可能信息孤立、语义不连贯。
4、数据生成一致性问题:在生成如图像配合描述的文本时,常常难以保证文本与图像内容的一致性和相辅相成,影响了用户体验和系统的实用性。
5、灾难性遗忘:多模态系统在连续学习新的模态数据处理任务时,往往会忘记旧的知识(灾难性遗忘),尤其是在模型需要不断更
...【技术保护点】
1.一种基于统一框架的中文多模态数据生成方法,其特征在于,包括:
2.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法,其特征在于,所述预处理包括图像的尺寸变换、裁剪和归一化处理,视频的关键帧提取和音频的采样率转换。
3.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法,其特征在于,在所述多模态大模型中,通过模型中的专家加权打分综合分析所述特征嵌入表示,生成多模态内容。
4.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法,其特征在于,所述多模态数据包括图像、视频和音频。
5.根据权利
...【技术特征摘要】
1.一种基于统一框架的中文多模态数据生成方法,其特征在于,包括:
2.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法,其特征在于,所述预处理包括图像的尺寸变换、裁剪和归一化处理,视频的关键帧提取和音频的采样率转换。
3.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法,其特征在于,在所述多模态大模型中,通过模型中的专家加权打分综合分析所述特征嵌入表示,生成多模态内容。
4.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法,其特征在于,所述多模态数据包括图像、视频和音频。
5.根据权利要求1所述的一种基于统一框架的中文多模态数据生成方法,其特征在于,将预处理后的所述多模态数据...
【专利技术属性】
技术研发人员:赵铁军,朱聪慧,杨沐昀,杨宇辰,曹海龙,徐冰,吴家恒,王思睿,马骜宇,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。