【技术实现步骤摘要】
标签预测方法、文本预测模型的训练方法、装置及设备
[0001]本申请涉及人工智能
,特别涉及一种标签预测方法、文本预测模型的训练方法、装置及设备。
技术介绍
[0002]随着多媒体技术的快速发展,人们可以在视频平台上选择自己喜欢的视频进行观看,视频平台也可以为人们推荐视频。而为了便于推荐视频,需要事先对视频打上标签,该标签用于描述视频的内容,一个标签通常是一个是短语,包括剧名、人名、主题、题材、情节等。
[0003]相关技术中,一般是基于视频和标签进行模型训练,基于训练得到的神经网络模型对视频打标签。而每当新增标签后,则需基于该新增的标签重新进行模型训练,才能够使训练得到的神经网络模型兼容该新增的标签。上述方案导致训练模型耗时较长。
技术实现思路
[0004]本申请实施例提供了一种标签预测方法、文本预测模型的训练方法、装置及设备,提高了文本检测模型兼容新增的标签的效率。所述技术方案如下:
[0005]一方面,提供了一种标签预测方法,所述方法包括:
[0006]提取目标视频的目标视 ...
【技术保护点】
【技术特征摘要】
1.一种标签预测方法,其特征在于,所述方法包括:提取目标视频的目标视频内容,所述目标视频内容包括所述目标视频中的视频帧、音频和文字;通过目标文本预测模型,确定所述目标视频内容的目标视频注意力向量,所述目标文本预测模型基于多组样本对训练得到,每组样本对包括样本视频的样本视频内容和样本描述文本,所述样本描述文本用于概述所述样本视频;获取标签库中的每个描述文本的文本注意力向量,所述文本注意力向量通过所述目标文本预测模型确定,所述标签库存储有多个描述文本和所述多个描述文本分别对应的标签;通过所述目标文本预测模型,将每个描述文本的文本注意力向量分别与所述目标视频注意力向量进行匹配,将匹配结果满足目标条件的描述文本,作为所述目标视频的目标描述文本;将所述目标描述文本对应的标签,作为所述目标视频的目标标签。2.根据权利要求1所述的方法,其特征在于,所述将每个描述文本的文本注意力向量分别与所述目标视频注意力向量进行匹配,将匹配结果满足目标条件的描述文本,作为所述目标视频的目标描述文本,包括:将每个描述文本的文本注意力向量和所述目标视频注意力向量输入所述目标文本预测模型;通过所述目标文本预测模型,对于每个描述文本,确定所述描述文本的文本注意力向量和所述目标视频注意力向量之间的相似度,确定所述相似度对应的预测概率,将预测概率大于概率阈值的描述文本,作为所述目标描述文本,所述预测概率用于表示所述描述文本与所述目标视频内容之间的匹配程度。3.根据权利要求1所述的方法,其特征在于,所述通过目标文本预测模型,确定所述目标视频内容的目标视频注意力向量,包括:分别确定所述视频帧的目标视频帧特征向量、所述音频的目标音频特征向量和所述文字的目标文字特征向量;将所述目标视频帧特征向量、所述目标音频特征向量和所述目标文字特征向量分别输入所述目标文本预测模型,通过所述目标文本预测模型,分别对所述目标视频帧特征向量、所述目标音频特征向量和所述目标文字特征向量进行注意力特征提取,得到目标视频帧注意力向量、目标音频注意力向量和目标文字注意力向量,融合所述目标视频帧注意力向量、所述目标音频注意力向量和所述目标文字注意力向量,得到所述目标视频注意力向量。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:对于每个描述文本,确定所述描述文本的文本特征向量;将所述描述文本的文本特征向量输入所述目标文本预测模型,通过所述目标文本预测模型,对所述描述文本的文本特征向量进行注意力特征提取,得到所述描述文本的文本注意力向量。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取多个标签;分别对所述多个标签进行文本阐释,得到所述多个标签分别对应的描述文本;
基于所述多个标签和所述多个标签分别对应的描述文本,得到所述标签库。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:周期性获取新增的标签;对所述新增的标签进行文本阐释,得到所述新增的标签对应的描述文本;将所述新增的标签和所述新增的标签对应的描述文本存储到所述标签库。7.一种文本预测模型的训练方法,其特征在于,所述方法包括:获取多组样本对,每组样本对包括样本视频的样本视频内容和样本描述文本,所述样本视频内容包括所述样本视频中的样本视频帧、样本音频和样本文字,所述样本描述文本用于概述所述样本视频;基于所述多组样本对,迭代执行如下步骤,以对文本预测模型进行训练,得到目标文本预测模型,所述目标文本预测模型用于基于视频内容,确定与所述视频内容匹配的描述文本,所述描述文本对应的标签用于确定所述视频内容对应的视频的标签:对于迭代过程中使用的样本对,通过所述文本预测模型,确定所述样本对中的样本视频内容的视频注意力向量和所述样本描述文本的文本注意力向量;基于所述样本视频内容的视频注意力向量和所述样本描述文本的文本注意力向量,确定第一损失值,所述第一损失值用于表示所述样本描述文本与所述样本视频内容的真实描述文本之间的差距;基于所述样本对的第一损失值,调整所述文本预测模型的模型参数。8.根据权利要求7所述的方法,其特征在于,所述通过所述文本预测模型,确定所述样本对中的样本视频内容的视频注意力向量和所述样本描述文本的文本注意力向量,包括:分别确定所述样本视频帧的视频帧特征向量、所述样本音频的音频特征向量和所述样本文字的文字特征向量;将所述视频帧特征向量、所述音频特征向量和所述文字特征向量分别输入所述文本预测模型,通过所述文本预测模型,分别对所述述视频帧特征向量、所述音频特征向量和所述文字特征向量进行注意力特征提取,得到视频帧注意力向量、音频注意力向量和文字注意力向量,融合所述视频帧注意力向量、所述音频注意力向量和所述文字注意力向量,得到所述视频注意力向量;确定所述样本描述文本的文本特征向量;将所述样本描述文本的文本特...
【专利技术属性】
技术研发人员:刘霄,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。