【技术实现步骤摘要】
视频处理方法、装置、电子设备及存储介质
[0001]本申请涉及人工智能领域,本申请尤其涉及深度学习、模型训练、知识图谱、视频处理等领域。
技术介绍
[0002]便携设备、手机终端等电子设备相比以往更加智能化,芯片的解析能力更强,尤其对视频信息的解析、画面渲染等比以往更快、更清晰,使得用户对视频画质的需求高于以往,尤其是针对高时效性场景(如阅兵场景、体育赛事、实时的视频直播等)而言,对每个视频瞬间的精彩画面,用户都希望捕捉到,需要更为准确且清晰的视频画面。
[0003]视频处理中,以视频拆分为例,可以通过人工方式实现视频拆分,但是不仅会耗费大量的人工成本,且无法满足上述高时效性场景的要求;而对于非人工的一些视频拆分方式,无法充分理解视频帧的内容信息(如文本、视频中物体、动作等),对视频事件的连贯性(如镜头变换导致的场景切换等)也不能很好的把控,导致对视频画面解读的准确性大大降低,影响了最终目标视频所呈现的视频画质效果。
技术实现思路
[0004]本申请提供了一种视频处理方法、装置、电子设备及存储介质。< ...
【技术保护点】
【技术特征摘要】
1.一种视频处理方法,所述方法包括:获取多个第一视频帧,对所述多个第一视频帧进行细粒度拆分,得到多个第二视频帧;根据与所述多个第二视频帧相关的多模态信息,对所述多个第二视频帧进行特征编码,得到用于表征所述多模态信息融合的特征融合信息;根据所述特征融合信息,对所述多个第二视频帧进行相似度匹配,根据相似度匹配结果得到目标视频。2.根据权利要求1所述的方法,其中,所述获取多个第一视频帧,对所述多个第一视频帧进行细粒度拆分,得到多个第二视频帧,包括:根据用于表征镜头及色彩变换的参数,对所述多个第一视频帧进行细粒度拆分,得到所述多个第二视频帧。3.根据权利要求1所述的方法,其中,所述根据与所述多个第二视频帧相关的多模态信息,对所述多个第二视频帧进行特征编码,得到用于表征所述多模态信息融合的特征融合信息,包括:根据所述多模态信息,对所述多个第二视频帧进行特征提取及特征融合处理,得到所述特征融合信息。4.根据权利要求1所述的方法,其中,所述根据所述特征融合信息,对所述多个第二视频帧进行相似度匹配,根据相似度匹配结果得到目标视频,包括:根据所述特征融合信息,对所述多个第二视频帧的相似度进行打分,将打分结果作为所述相似度匹配结果;所述相似度匹配结果为针对同一事件内容的相邻视频帧相似的情况下,将所述相邻视频帧进行视频合并,直至对所述多个第二视频帧分别依据相邻视频帧合并结束,根据视频合并结果得到所述目标视频。5.根据权利要求2
‑
4中任一项所述的方法,还包括:根据预先训练好的第一神经网络模型,从所述多个第二视频帧中识别出所述多模态信息。6.根据权利要求5所述的方法,其中,所述根据预先训练好的第一神经网络模型,从所述多个第二视频帧中识别出所述多模态信息,包括:根据所述第一神经网络模型中的知识图谱提取器,识别出知识图谱信息;根据所述第一神经网络模型中的文本提取器,识别出文本信息;根据所述第一神经网络模型中的音频提取器,识别出音频信息;根据所述第一神经网络模型中的色调提取器,识别出色调信息;根据所述第一神经网络模型中的物体提取器,识别出物体信息;根据所述第一神经网络模型中的动作提取器,识别出动作信息;所述多模态信息包括:所述知识图谱信息、所述文本信息、所述音频信息、所述色调信息、所述物体信息、所述动作信息中的至少一种。7.根据权利要求6所述的方法,还包括:根据第二神经网络模型,对所述多模态信息中各类信息进行区分;根据第三神经网络模型,对与所述多模态信息相关的时序信息进行识别;对所述第一神经网络模型、第二神经网络模型、所述第三神经网络模型的输出结果进
行融合,得到所述特征融合信息。8.一种视频处理装置,所述装置包括:拆分模块,用于获取多个第一视频帧,对所述多个第一视频帧进行细...
【专利技术属性】
技术研发人员:汪琦,冯知凡,杨虎,柴春光,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。