视频问答模型的训练方法、视频问答方法和电子设备技术

技术编号:46628109 阅读:0 留言:0更新日期:2025-10-14 21:26
本申请实施例提供一种视频问答模型的训练方法、视频问答方法和电子设备,涉及人工智能技术领域,视频问答模型的训练方法包括:获取第一样本数据;第一样本数据包括:第一样本视频帧序列、第一样本问题、第一样本答案和第一样本视频帧序列中的各视频帧的控制令牌;将所述第一样本数据输入待训练的第一模型中进行监督训练,得到第二模型;获取第二样本数据;第二样本数据包括:第二样本视频帧序列、第二样本问题和第二样本答案;根据第二样本数据对第二模型进行微调,得到视频问答模型。本申请使得视频问答模型能够处理和理解连续实时的视频数据流,且能够智能、精确地决定问答响应时机。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种视频问答模型的训练方法、视频问答方法和电子设备


技术介绍

1、近年来,随着深度学习理论与计算能力的飞速发展,以transformer架构为基础的大语言模型(llms,large language models)在自然语言处理领域取得了突破性进展。在此基础上,多模态大语言模型(mllms,multimodal large language models)进一步将llms强大的文本理解、推理和生成能力扩展至多种数据模态,如图像、音频和视频。一个典型的多模态大语言模型,其技术架构通常包含以下几个核心组成部分:首先,一个或多个模态编码器(modality encoders),例如用于处理视觉信息的vit(vision transformer),负责将非文本的输入数据(如视频帧)转换为高维度的特征向量;其次,一个投影层或对齐模块(projection/alignment layer),其作用是将不同模态的特征向量映射到与语言模型相同的语义空间中,实现多模态信息的对齐与融合;最后,一个核心的大语言模型(llmbackbone),它接收本文档来自技高网...

【技术保护点】

1.一种视频问答模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述第一样本数据输入待训练的第一模型中进行监督训练,得到第二模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述第一预测结果包括:第一预测答案和预测令牌;

4.根据权利要求1所述的方法,其特征在于,所述根据所述第二样本数据对所述第二模型进行微调,得到训练后的视频问答模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述第二样本数据还包括:所述第二样本问题和所述第二样本答案之间的问答对应关系、所述第二样本答案的输出时刻对应的样本时...

【技术特征摘要】

1.一种视频问答模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述第一样本数据输入待训练的第一模型中进行监督训练,得到第二模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述第一预测结果包括:第一预测答案和预测令牌;

4.根据权利要求1所述的方法,其特征在于,所述根据所述第二样本数据对所述第二模型进行微调,得到训练后的视频问答模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述第二样本数据还包括:所述第二样本问题和所述第二样本答案之间的问答对应关系、所述第二样本答案的输出时刻对应的样本时间戳;所述第二预测结果包括:第二预测答案和所述第二预测答案对应的预测问题标识、以及所述第二预测答案的输出时刻对应的预测时间戳;

...

【专利技术属性】
技术研发人员:南国顺钱家文陶小峰
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1