视频新闻分类模型建立方法、分类方法、装置及设备制造方法及图纸

技术编号：32349126 阅读：13 留言：0更新日期：2022-02-20 02:12

本文提供了视频新闻分类模型建立方法、分类方法、装置及设备，所述分类模型建立方法包括获取待训练视频新闻数据集合；将文本模态数据或图像模态数据输入到预训练标注模型中，得到标注结果；将待训练视频新闻数据输入到初始分类模型中，得到分类结果；根据标注结果和分类结果，分别计算得到第一损失函数的计算值及第二损失函数的计算值；根据第一损失函数的计算值和第二损失函数的计算值，计算获得目标损失函数的计算值；根据目标损失函数的计算值，训练得到视频新闻分类模型，并通过训练得到的分类模型进行视频新闻的分类，本文能提高视频新闻分类的效率和准确性。新闻分类的效率和准确性。新闻分类的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
视频新闻分类模型建立方法、分类方法、装置及设备

[0001]本文属于计算机
，具体涉及视频新闻分类模型建立方法、分类方法、装置及设备。

技术介绍

[0002]多模态数据是指对同一个对象，采用描述的方式（视角或领域不同），把描述这些数据的每一个领域或者视角叫做一个模态。其中新闻数据也是一种多模态数据，新闻数据包括文本、图像、视频等不同模态信息；每个视频可以分解为视觉、音频、图片、文字等多模态信息。
[0003]新闻分类属于分类任务的一个特定应用场景，因其分类体系与业务形态紧密关联，业界没有统一的分类标准，特别是针对视频新闻的分类，视频分类更多聚焦于视频动作的识别和分类。一般采用机器学习算法进行分类，具体为通过理解视频新闻中包含的内容，建模多模态特征表达和特征融合两个子网络，然后基于深度学习分类模型，确定视频新闻对应的主题。
[0004]在模型训练时需要对视频新闻进行大量的主题标注，才能提高模型训练的准确性，现有技术中，视频新闻主题的标注一般是通过手动标注，手动标注效率低准确性差、效率低，因此导致训练的样本量和可靠性降低，导致训练出的模型准确性较差。因此如何提高视频新闻分类的准确性和效率成为目前亟需解决的技术问题。

技术实现思路

[0005]针对现有技术的上述问题，本文的目的在于，提供一种视频新闻分类模型建立方法、分类方法、装置及设备，能够提高视频新闻分类的准确性和效率。
[0006]为了解决上述技术问题，本文的具体技术方案如下：一方面，本文提供一种视频新闻分类模型建立方法，...

【技术保护点】

【技术特征摘要】
1.一种视频新闻分类模型建立方法，其特征在于，所述方法包括：获取待训练视频新闻数据集合，所述待训练视频新闻数据包括文本模态数据、图像模态数据和视频模态数据；将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果，所述标注结果作为初始分类模型的目标分类结果；将所述待训练视频新闻数据输入到初始分类模型中，生成所述待训练视频新闻数据的分类结果，所述分类结果作为所述预训练标注模型的目标标注结果；根据所述标注结果和所述分类结果，分别计算得到用于训练所述预训练标注模型的第一损失函数的计算值，以及用于训练所述初始分类模型的第二损失函数的计算值；根据所述第一损失函数的计算值和所述第二损失函数的计算值，计算获得目标损失函数的计算值；根据所述目标损失函数的计算值，调整所述预训练标注模型的网络参数、所述初始分类模型的网络参数以及所述目标损失函数，并回到所述标注结果的生成步骤，直到所述预训练标注模型和所述初始分类模型收敛，得到所述初始分类模型的收敛网络参数；根据所述初始分类模型的收敛网络参数，确定视频新闻分类模型。2.根据权利要求1所述的方法，其特征在于，所述文本模态数据包括所述待训练视频新闻中的标题文本，或所述待训练视频新闻中的音频文本；所述图像模态数据包括所述待训练视频新闻中的新闻图片，或所述待训练视频新闻中指定位置的视频帧图像。3.根据权利要求1所述的方法，其特征在于，所述获取待训练视频新闻数据集合之后包括：利用BERT模型获取所述文本模态数据的文本特征向量；利用Xception模型获取所述图像模态数据的图像特征向量；利用3D卷积神经网络获取所述视频模态数据的视觉特征向量。4.根据权利要求3所述的方法，其特征在于，所述将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果，包括：将所述文本特征向量输入到预训练文本分类模型中，生成所述待训练视频新闻数据的标注结果；或，将所述图像特征向量输入到预训练图像分类模型中，生成所述待训练视频新闻数据的标注结果。5.根据权利要求3所述的方法，其特征在于，所述将所述待训练视频新闻数据输入到初始分类模型中，生成所述待训练视频新闻数据的分类结果，包括：将所述文本特征向量、图像特征向量和所述视觉特征向量融合处理，得到视频新闻特征向量；将所述视频新闻特征向量输入到所述初始分类模型中，生成所述待训练视频新闻数据的分类结果。6.根据权利要求5所述的方法，其特征在于，所述将所述文本特征向量、图像特征向量和所述视觉特征向量融合处理，得到视频新闻特征向量，包括：
将所述文本特征向量、图像特征向量和所述视觉特征向量进行拼接处理，得到视频多模态特征向量；将所述视频多模态特征向量输入到NeXtVLAD模型中，得到初始视频新闻特征向量；将所述初始视频新闻特征向量输入到门控循环神经网络中进行特征增强处理，得到所述视频新闻特征向量。7.根据权利要求1所述的方法，其特征在于，所述目标损失函数通过如下公式表示：，其中，L为目标损失函数的计算值，w
i
为第i个损失函数的权重系数，L
i
为第i个损失函数的计算值，n为损失函数的总数，。8.根据权利要求1所述的方法，其特征在于，所述将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果之前还包括：初始化所述目标损失函数中的权重系数和初始化...

【专利技术属性】
技术研发人员：仉佃星，张智跃，赵刚，
申请(专利权)人：人民网科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人