System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于网络空间认知域,尤其涉及一种文本、图像和视频多模态融合的文本生成方法及系统。
技术介绍
1、在文本生成上,相关技术有图像描述技术、视频理解技术、文本生成技术;通过文本类素材提供的信息,进行文本生成,通常仅考虑素材中的文本上下文语义的逻辑层面,缺乏融合原始素材中诸如图像、视频的知识特征信息,导致生成的内容脱离主题或行文不连贯。在传统的文本生成中,仅依据素材文本提供的信息能够制作的素材角度或主题有限。
2、通过上述分析,现有技术存在的问题及缺陷为:现有技术文本生成内容角度单一,文本生成中的表达模糊。
技术实现思路
1、为克服相关技术中存在的问题,本专利技术公开实施例提供了一种文本、图像和视频多模态融合的文本生成方法及系统,具体涉及文本、图像和视频多模态融合的个性化文本生成技术。本专利技术目的在于通过结合图像和视频,分析视图像中的实体、场景和情感,提供了额外的信息源,使得生成的文本能够包含更多的细节和描述,从而提升文本的内容丰富度和多样性。
2、所述技术方案如下:一种文本、图像和视频多模态融合的文本生成方法,基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的特征,生成对应描述并促进描述信息共享,抽取出关键信息与核心概念,实现不同模态间的深度整合,在大模型基础上生成符合语境的精确文本;具体包括以下步骤:
3、s1,文本内容提取:对社交媒体中获取得到非结构化文本信息使用大模型,确立三类不同类型prompt,引导和促进大模型从文本数据
4、s2,图像内容提取:对社交媒体中获取得到非结构化的图像信息,结合视频关键帧,使用大模型理解图像的全局信息和细节,确立一连串精确的prompt,对图像描述信息进行深度解析;
5、s3,视频内容提取:对社交媒体视频内容理解综合处理,深入分析视觉内容,使用大模型根据不同的prompt要求剖析视频素材中的背景与环境特征,以及对视频内所呈现的言语交流进行深度解析,明确对话者的情感色彩与态度倾向;识别是否涉及信息共享池内容,分析视频内容与信息共享池内容潜在的联系与交集;
6、s4,个性化文本内容生成:将抽取的关键信息和核心概念的理解融合特征输入至大型模型之中,生成符合上下文逻辑、语义丰富且具有高度相关性的文本输出。
7、在步骤s1中,大模型根据三类prompt分别抽取出实体、关系和事件,生成详尽的文本描述,并使这些文本描述信息在信息共享的过程中完成传达;所述实体包括识别出有意义的实体,所述关系包括识别文本中实体之间的关系,所述事件包括识别出事件及其相关的参与者、时间、地点信息。
8、在步骤s2中,对图像描述信息进行深度解析,包括:
9、第一部分,常规理解,涵盖从图像化的复杂文档中提取与解读信息的技能;对图像内各类实体的精确识别与分类,标注出各实体在图像空间中的具体位置坐标;
10、第二部分,图像所承载的普遍认知知识的阐释,解析其中隐含的情感表达,以及对寓含幽默与文化共鸣的视觉符号;
11、第三部分,挖掘与文本共享信息呼应的潜在意义与关联的内容,对于第一部分、第二部的内容采取prompt的方式进行提取,第三部分通过已建立的信息共享池中检索文本内容涉及的实体,继而标注出实体在图像中的位置;
12、结合以上三部分构建一个涵盖图像中各实体间的位置关联和上下文,同时在信息共享池中共享的图像描述。
13、在步骤s2中,图像内容提取,包括:
14、s201,将图像大小进行调整、颜色进行归一化处理以及进行图像增强,转化为大模型适用格式;
15、s202,使用vit将图像分割成多个patch,并通过多层的自注意力机制处理上述patch,形成包含全局与局部信息的特征图;引入位置编码通过位置感知的视觉语言适配器增强每个patch特征的位置感知能力,理解图像中不同部分之间的关系;
16、s203,将输入prompt文本编码,通过交叉注意力机制整合视觉与文本特征于统一嵌入空间,促进深度交互;
17、s204,融合后的特征通过视觉解码器进行进一步处理,用于生成图像描述输出。
18、在步骤s202中,视觉语言适配器包含随机初始化的单层交叉注意模块,使用一组可训练向量作为查询向量,并将来自视觉编码器的图像特征作为交叉注意操作的键。
19、在步骤s204中,用于生成图像描述输出,包括:通过交叉注意力机制整合视觉与文本特征于统一嵌入空间,促进深度交互;生成对图像的描述、回答或解释,包括对物体位置的明确说明。
20、在步骤s3中,视频素材中的背景与环境特征,包括涵盖场景的空间架构、气象状况以及地理环境的独特属性;还包括对人物动作及活动的精细描述,包括肢体动态、面部微表情,以及与周遭物体、同类或其他生物之间的交流。
21、在步骤s3中,视频内容提取,包括:
22、s301,依据视频内容第一帧生成的详细视频描述,通过采用语义感知的关键帧提取方法以保持关键帧变化的捕捉,并移除具有高语义相似性的相邻帧;
23、s302,在时间顺序上应用差分滑动窗口来处理后续支持帧,通过结合当前关键帧及其前一帧的差分描述,将所有差异化的描述及其对应的关键帧作为输入,从而捕捉到视频中的整体叙事线索和细节变化,叠加信息共享池中的文本描述、图像描述以及物体定位的内容指导大模型产生详细且富有时序性的总体描述。
24、在步骤s4中,抽取的关键信息和核心概念,包括:
25、依据所有模态在语义层面上融合的文本描述、图像描述以及视频描述特征,确保每个模态的信息都被准确地捕获和表达,随后通过大模型分析融合特征的含义,进一步提炼出更深层次的意义关联,理解这些融合特征,抽取出关键信息与核心概念。
26、本专利技术的另一目的在于提供一种文本、图像和视频多模态融合的文本生成系统,该系统实施所述文本、图像和视频多模态融合的文本生成方法,该系统包括:
27、文本内容提取模块,用于对社交媒体中获取得到非结构化的文本信息中使用大模型,确立三类不同类型prompt,引导和促进大模型从文本数据中精准地抽取具有实质意义的文本描述信息片段;
28、图像内容提取模块,用于对社交媒体中获取得到非结构化的图像信息,结合视频关键帧,使用大模型理解图像的全局信息和细节,确立一连串精确的prompt,对图像描述信息进行深度解析;
29、视频内容提取模块,用于对社交媒体视频内容理解综合处理,深入分析视觉内容,使用大模型根据不同的prompt要求剖析视频素材中的背景与环境特征,以及对视频内所呈现的言语交流进行深度解析,明确对话者的情感色彩与态度倾向;识别是否涉及信息共享池内容,分析视频内容与信息共享池内容潜在的联系与交集;
30、个性化文本内容生成模块,用于将抽取的关键信息和核心概念的理解融合特征输入至大型模型之中,生本文档来自技高网...
【技术保护点】
1.一种文本、图像和视频多模态融合的文本生成方法,其特征在于,该方法基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的特征,生成对应描述并促进描述信息共享,抽取出关键信息与核心概念,实现不同模态间的深度整合,在大模型基础上生成符合语境的精确文本;具体包括以下步骤:
2.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤S1中,大模型根据三类prompt分别抽取出实体、关系和事件,生成详尽的文本描述,并使这些文本描述信息在信息共享的过程中完成传达;所述实体包括识别出有意义的实体,所述关系包括识别文本中实体之间的关系,所述事件包括识别出事件及其相关的参与者、时间、地点信息。
3.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤S2中,对图像描述信息进行深度解析,包括:
4.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤S2中,图像内容提取,包括:
5.根据权利要求4所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤S
6.根据权利要求4所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤S204中,用于生成图像描述输出,包括:通过交叉注意力机制整合视觉与文本特征于统一嵌入空间,促进深度交互;生成对图像的描述、回答或解释,包括对物体位置的明确说明。
7.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤S3中,视频素材中的背景与环境特征,包括涵盖场景的空间架构、气象状况以及地理环境的独特属性;还包括对人物动作及活动的精细描述,包括肢体动态、面部微表情,以及与周遭物体、同类或其他生物之间的交流。
8.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤S3中,视频内容提取,包括:
9.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤S4中,抽取的关键信息和核心概念,包括:
10.一种文本、图像和视频多模态融合的文本生成系统,其特征在于,实施权利要求1-9任意一项所述文本、图像和视频多模态融合的文本生成方法,该系统包括:
...【技术特征摘要】
1.一种文本、图像和视频多模态融合的文本生成方法,其特征在于,该方法基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的特征,生成对应描述并促进描述信息共享,抽取出关键信息与核心概念,实现不同模态间的深度整合,在大模型基础上生成符合语境的精确文本;具体包括以下步骤:
2.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤s1中,大模型根据三类prompt分别抽取出实体、关系和事件,生成详尽的文本描述,并使这些文本描述信息在信息共享的过程中完成传达;所述实体包括识别出有意义的实体,所述关系包括识别文本中实体之间的关系,所述事件包括识别出事件及其相关的参与者、时间、地点信息。
3.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤s2中,对图像描述信息进行深度解析,包括:
4.根据权利要求1所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤s2中,图像内容提取,包括:
5.根据权利要求4所述的文本、图像和视频多模态融合的文本生成方法,其特征在于,在步骤s202中,视觉语言适配器包含随机初始化的单层交叉注意模块,使用...
【专利技术属性】
技术研发人员:陈鹏,汪淼,马军,吴大冬,曾宇龙,
申请(专利权)人:深圳市网联安瑞网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。