基于人工智能的视频评估方法、装置及可读存储介质制造方法及图纸

技术编号:39324096 阅读:5 留言:0更新日期:2023-11-12 16:03
本申请实施例公开了一种基于人工智能的视频评估方法、装置及可读存储介质,可以获取目标视频的视觉模态特征、音频模态特征和文本模态特征;基于视觉模态特征、音频模态特征和文本模态特征进行融合,得到目标视频的第一多模态特征;基于第一多模态特征进行精彩分数预测,得到目标视频的第一精彩分数分布;基于第一精彩分数分布确定目标视频的看点精彩程度。该方案基于第一精彩分数分布可以对预测的看点精彩程度作一定的修正处理,使得预测的看点精彩程度更合理,进而提高目标视频的看点精彩程度的评估准确度、降低看点精彩程度的主观性;从而有助于准确地从海量的视频中筛选出更令用户感兴趣的视频。令用户感兴趣的视频。令用户感兴趣的视频。

【技术实现步骤摘要】
基于人工智能的视频评估方法、装置及可读存储介质


[0001]本申请实施例涉及人工智能
,具体涉及一种基于人工智能的视频评估方法、装置、计算机设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着短视频的快速发展,视频已经成为很大一部分互联网用户娱乐的首要选择。视频的看点类型、看点精彩程度对于短视频的管理具有重要的指导意义,例如,短视频的看点类型、看点精彩程度可有助于从海量的视频中筛选出更令用户感兴趣的视频分发给用户,以帮助用户从海量的视频中精准、快速地筛选出对其更具吸引力的视频。
[0003]现有技术中,主要是通过运营人员人工筛选和标记方式对短视频的看点精彩程度进行评估,一方面,评估效率低;另一方面,评估的看点精彩程度主观性强,从而导致无法准确地从海量的视频中筛选出更令用户感兴趣的视频。

技术实现思路

[0004]本申请实施例提供一种基于人工智能的视频评估方法、装置、计算机设备、计算机可读存储介质及计算机程序产品,能够提高目标视频的看点精彩程度的评估准确度、降低看点精彩程度的主观性,有助于准确地从海量的视频中筛选出更令用户感兴趣的视频。
[0005]第一方面,本申请实施例提供一种基于人工智能的视频评估方法,所述方法包括:
[0006]获取目标视频的视觉模态特征、音频模态特征和文本模态特征;
[0007]基于所述视觉模态特征、所述音频模态特征和所述文本模态特征进行融合,得到所述目标视频的第一多模态特征;
[0008]基于所述第一多模态特征进行精彩分数预测,得到所述目标视频的第一精彩分数分布;
[0009]基于所述第一精彩分数分布确定所述目标视频的看点精彩程度。
[0010]第二方面,本申请实施例提供一种基于人工智能的视频评估装置,所述基于人工智能的视频评估装置包括:
[0011]获取单元,用于获取目标视频的视觉模态特征、音频模态特征和文本模态特征;
[0012]融合单元,用于基于所述视觉模态特征、所述音频模态特征和所述文本模态特征进行融合,得到所述目标视频的第一多模态特征;
[0013]评估单元,用于基于所述第一多模态特征进行精彩分数预测,得到所述目标视频的第一精彩分数分布;
[0014]所述评估单元,还用于基于所述第一精彩分数分布确定所述目标视频的看点精彩程度。
[0015]第三方面,本申请实施例还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种基于人工智能的视频评估方法中的步骤。
[0016]第四方面,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的基于人工智能的视频评估方法中的步骤。
[0017]第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本专利技术实施例所提供的任一种基于人工智能的视频评估方法中的步骤。
[0018]从以上内容可得出,本申请实施例具有以下的有益效果:
[0019]本申请实施例中,第一方面,通过基于视觉模态特征、音频模态特征和文本模态特征进行融合得到目标视频的第一多模态特征,用于预测目标视频的看点精彩程度,由于结合了视觉、音频和文本多个模态信息,使得用于预测的第一多模态特征更加全面,进而可以提高目标视频的看点精彩程度的预测准确度。第二方面,由于可以基于视觉模态特征、音频模态特征和文本模态特征进行融合得到的目标视频的第一多模态特征,自动预测目标视频的看点精彩程度,从而可以在一定程度上提高看点精彩程度的评估效率、避免人工评估的看点精彩程度主观性强的问题。第三方面,由于人工标注的看点精彩程度带有较强的主观性,通过先基于第一多模态特征预测目标视频的第一精彩分数分布后,再基于第一精彩分数分布确定目标视频的看点精彩程度,可以对预测的看点精彩程度作一定的修正处理,使得预测的看点精彩程度更合理,进而提高目标视频的看点精彩程度的评估准确度、降低看点精彩程度的主观性;从而有助于准确地从海量的视频中筛选出更令用户感兴趣的视频。
附图说明
[0020]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请实施例提供的基于人工智能的视频评估方法的应用场景示意图;
[0022]图2是本申请实施例中提供的基于人工智能的视频评估方法的一个实施例流程示意图;
[0023]图3是本申请实施例中提供的基于人工智能的视频评估系统的另一种架构图;
[0024]图4是本申请实施例中提供的多模态特征提取模型的一种结构示意图;
[0025]图5是本申请实施例提供的看点精彩程度和看点类型预测的整体模型结构示意图;
[0026]图6是本申请实施例提供的精彩程度预测模型的一个结构示意图;
[0027]图7本申请实施例中基于人工智能的视频评估装置的一个实施例结构示意图;
[0028]图8本申请实施例所涉及的计算机设备的结构示意图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本申请保护的范围。
[0030]在本申请实施例的描述中,需要理解的是,术语“第一”、“第二”用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
[0031]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0032]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的视频评估方法,其特征在于,所述方法包括:获取目标视频的视觉模态特征、音频模态特征和文本模态特征;基于所述视觉模态特征、所述音频模态特征和所述文本模态特征进行融合,得到所述目标视频的第一多模态特征;基于所述第一多模态特征进行精彩分数预测,得到所述目标视频的第一精彩分数分布;基于所述第一精彩分数分布确定所述目标视频的看点精彩程度。2.根据权利要求1所述的基于人工智能的视频评估方法,其特征在于,所述基于所述第一多模态特征进行精彩分数预测,得到所述目标视频的第一精彩分数分布,包括:通过训练好的精彩程度预测模型,基于所述第一多模态特征进行精彩分数预测,得到所述目标视频的第一精彩分数分布;所述方法还包括:获取样本视频的第三多模态特征和所述样本视频的标注精彩程度;基于所述标注精彩程度生成所述目标视频的实际精彩分数分布;通过预设的精彩程度预测模型,根据所述第三多模态特征进行预测,得到所述样本视频的第二精彩分数分布;基于所述实际精彩分数分布与所述第二精彩分数分布之间的损失值,对所述预设的精彩程度预测模型的模型参数进行调整,直至符合预设的停止训练条件时,得到所述训练好的精彩程度预测模型。3.根据权利要求1所述的基于人工智能的视频评估方法,其特征在于,所述基于所述第一多模态特征进行精彩分数预测,得到所述目标视频的第一精彩分数分布,包括:获取所述目标视频的对象消费特征和所述目标视频的包含对象特征;对所述第一多模态特征、所述对象消费特征和所述包含对象特征进行融合,得到所述目标视频的第二多模态特征;基于所述第二多模态特征进行精彩分数预测,得到所述目标视频的第一精彩分数分布。4.根据权利要求1所述的基于人工智能的视频评估方法,其特征在于,所述获取目标视频的视觉模态特征,包括:抽取所述目标视频的多个序列帧;提取每个所述序列帧的图像特征向量;对多个所述序列帧的图像特征向量进行加和平均,得到所述目标视频的向量,以作为所述目标视频的视觉模态特征。5.根据权利要求1所述的基于人工智能的视频评估方法,其特征在于,所述获取目标视频的音频模态特征,包括:获取所述目标视频的音频;对所述目标视频的音频进行预处理,得到所述目标视频的梅尔...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1