【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种视频问答模型的训练方法、视频问答方法和电子设备。
技术介绍
1、近年来,随着深度学习理论与计算能力的飞速发展,以transformer架构为基础的大语言模型(llms,large language models)在自然语言处理领域取得了突破性进展。在此基础上,多模态大语言模型(mllms,multimodal large language models)进一步将llms强大的文本理解、推理和生成能力扩展至多种数据模态,如图像、音频和视频。一个典型的多模态大语言模型,其技术架构通常包含以下几个核心组成部分:首先,一个或多个模态编码器(modality encoders),例如用于处理视觉信息的vit(vision transformer),负责将非文本的输入数据(如视频帧)转换为高维度的特征向量;其次,一个投影层或对齐模块(projection/alignment layer),其作用是将不同模态的特征向量映射到与语言模型相同的语义空间中,实现多模态信息的对齐与融合;最后,一个核心的大语言模型(llmbac
...【技术保护点】
1.一种视频问答模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述第一样本数据输入待训练的第一模型中进行监督训练,得到第二模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述第一预测结果包括:第一预测答案和预测令牌;
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二样本数据对所述第二模型进行微调,得到训练后的视频问答模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述第二样本数据还包括:所述第二样本问题和所述第二样本答案之间的问答对应关系、所述第二样本答案的
...【技术特征摘要】
1.一种视频问答模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述第一样本数据输入待训练的第一模型中进行监督训练,得到第二模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述第一预测结果包括:第一预测答案和预测令牌;
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二样本数据对所述第二模型进行微调,得到训练后的视频问答模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述第二样本数据还包括:所述第二样本问题和所述第二样本答案之间的问答对应关系、所述第二样本答案的输出时刻对应的样本时间戳;所述第二预测结果包括:第二预测答案和所述第二预测答案对应的预测问题标识、以及所述第二预测答案的输出时刻对应的预测时间戳;
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。