【技术实现步骤摘要】
一种多模态视频文本处理模型训练方法及系统
[0001]本专利技术涉及深度学习
,尤其涉及一种多模态视频文本处理模型训练方法及系统
。
技术介绍
[0002]随着深度学习和自然语言处理等技术的飞速发展,视频内容理解和生成技术已经成为了人工智能领域的研究热点,其中,视频描述生成就是其中的一个重要任务,即根据视频的内容生成描述视频的文字,有着广泛的应用场景,如视频搜索
、
视频推荐
、
无障碍服务等
。
[0003]然而,多模态视频文本处理技术的发展面临着诸多挑战,其中之一便是数据集的构建,由于视频和文本数据的多样性和复杂性,构建一个高质量的多模态视频文本数据集不仅需要大量的数据,还需要对数据进行有效的筛选和预处理,现有的多模态视频文本处理技术在数据集构建方面存在以下问题:现有的多模态视频文本数据集规模较小,无法满足多模态视频文本处理模型的训练需求,导致模型泛化能力较弱,现有的多模态视频文本处理技术在数据筛选和预处理方面的方法较为简单,无法有效地识别和处理低质量数据,导 ...
【技术保护点】
【技术特征摘要】
1.
一种多模态视频文本处理模型训练方法,其特征在于,包括:步骤
S1
,数据获取模块获取包含了视频以及描述对应视频内容的文本的视频文本对,数据分析模块计算所述视频文本对的数据质量评价值,并根据所述数据质量评价值确定是否对所述视频文本对进行预处理;步骤
S2
,当所述数据分析模块确定对所述视频文本对进行预处理时,数据预处理模块确定对所述视频文本对进行预处理的预处理方式,将未进行处理的视频文本对以及预处理完成的视频文本对存储至数据集中;步骤
S3
,当数据集中的视频文本对的数量达到预设数量时,建模模块构建视频描述生成网络模型,将所述数据集按照预设比例划分为训练集与验证集,并将所述训练集在视频描述生成网络模型上训练;步骤
S4
,当所述视频描述生成网络模型训练完成后,模型评价模块根据所述视频描述生成网络模型在验证集上的准确率确定是否对预处理过程进行调节;步骤
S5
,当模型评价模块确定对所述预处理过程进行调节时,根据第二相对差确定对所述预处理过程进行调节的调节方式;其中,所述第二相对差由所述准确率与预设准确率确定
。2.
根据权利要求1所述的多模态视频文本处理模型训练方法,其特征在于,当所述数据获取模块获取视频文本对完成时,所述数据分析模块根据以下公式计算所述视频文本对的数据质量评价值,设定;;其中,
P
表示所述数据质量评价值,
Aa
表示所述视频文本对中文本的句子连贯度,
Ai
表示所述视频文本对中文本的第
i
个句子的句子概率,
n
表示所述视频文本对中文本的句子数量,
Bb
表示所述视频文本对中视频的相邻帧之间的平均结构相似度
。3.
根据权利要求2所述的多模态视频文本处理模型训练方法,其特征在于,当所述数据分析模块计算所述数据质量评价值完成且当所述数据质量评价值小于等于预设数据质量评价值时确定对所述视频文本对进行预处理
。4.
根据权利要求3所述的多模态视频文本处理模型训练方法,其特征在于,当所述数据分析模块确定对所述视频文本对进行预处理时,所述数据预处理模块根据第一相对差确定对所述视频文本对进行预处理的若干预处理方式,若干所述预处理方式包括对所述文本进行调整的第一预处理方式以及删除所述视频中每一帧的背景图像的第二预处理方式,其中所述第一相对差由所述数据质量评价值与预设数据质量评价值确定
。5.
根据权利要求4所述的多模态视频文本处...
【专利技术属性】
技术研发人员:韩东明,万力,王庆焕,邢军鹏,李晓阳,刘其敏,邵龙,
申请(专利权)人:山东海博科技信息系统股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。