一种文本、图像和视频多模态融合的文本生成方法及系统技术方案

技术编号:44567793 阅读:44 留言:0更新日期:2025-03-11 14:25
本发明专利技术属于网络空间认知域技术领域,公开了文本、图像和视频多模态融合的文本生成方法及系统。该方法基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的重要特征,生成相关描述并促进描述信息共享,抽取出关键信息与核心概念实现不同模态间的深度整合,最终在大模型基础上生成符合语境的精确文本。本发明专利技术实现了多模态融合,提供清晰且精确的视觉信息,解决文本生成内容角度单一,减少了文本生成中的表达模糊性的问题。

【技术实现步骤摘要】

本专利技术属于网络空间认知域,尤其涉及一种文本、图像和视频多模态融合的文本生成方法及系统


技术介绍

1、在文本生成上,相关技术有图像描述技术、视频理解技术、文本生成技术;通过文本类素材提供的信息,进行文本生成,通常仅考虑素材中的文本上下文语义的逻辑层面,缺乏融合原始素材中诸如图像、视频的知识特征信息,导致生成的内容脱离主题或行文不连贯。在传统的文本生成中,仅依据素材文本提供的信息能够制作的素材角度或主题有限。

2、通过上述分析,现有技术存在的问题及缺陷为:现有技术文本生成内容角度单一,文本生成中的表达模糊。


技术实现思路

1、为克服相关技术中存在的问题,本专利技术公开实施例提供了一种文本、图像和视频多模态融合的文本生成方法及系统,具体涉及文本、图像和视频多模态融合的个性化文本生成技术。本专利技术目的在于通过结合图像和视频,分析视图像中的实体、场景和情感,提供了额外的信息源,使得生成的文本能够包含更多的细节和描述,从而提升文本的内容丰富度和多样性。

2、所述技术方案如下:一种文本、图像本文档来自技高网...

【技术保护点】

1.一种文本、图像和视频多模态融合的文本生成方法,其特征在于,该方法基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的特征,生成对应描述并促进描述信息共享,抽取出关键信息与核心概念,实现不同模态间的深度整合,在大模型基础上生成符合语境的精确文本;具体包括以下步骤:

2.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤S1中,大模型根据三类prompt分别抽取出实体、关系和事件,生成详尽的文本描述,并使这些文本描述信息在信息共享的过程中完成传达;所述实体包括识别出有意义的实体,所述关系包括识别文本中实体之间的关系,所述事件包括识别出事件...

【技术特征摘要】

1.一种文本、图像和视频多模态融合的文本生成方法,其特征在于,该方法基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的特征,生成对应描述并促进描述信息共享,抽取出关键信息与核心概念,实现不同模态间的深度整合,在大模型基础上生成符合语境的精确文本;具体包括以下步骤:

2.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤s1中,大模型根据三类prompt分别抽取出实体、关系和事件,生成详尽的文本描述,并使这些文本描述信息在信息共享的过程中完成传达;所述实体包括识别出有意义的实体,所述关系包括识别文本中实体之间的关系,所述事件包括识别出事件及其相关的参与者、时间、地点信息。

3.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤s2中,对图像描述信息进行深度解析,包括:

4.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤s2中,图像内容提取,包括:

5.根据权利要求4所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤s202中,视觉语言适配器包含随机初始化的单层交叉注意模块,使用...

【专利技术属性】
技术研发人员:陈鹏汪淼马军吴大冬曾宇龙
申请(专利权)人:深圳市网联安瑞网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1