视频内容识别方法、装置、电子设备、可读存储介质制造方法及图纸

技术编号:38718005 阅读:15 留言:0更新日期:2023-09-08 15:00
本公开提供了视频内容识别方法、装置、电子设备、可读存储介质,图像处理技术领域,尤其涉及深度学习、目标分类、目标识别技术领域。具体实现方案为:获取待识别视频的音频对应的待识别文本,将所述待识别文本进行分词,获取所述待识别文本对应的至少一个待匹配词;将所述待匹配词与预先构建的关键词词库中的关键词进行匹配,根据所述匹配结果获取所述待识别视频对应的丰富度;至少根据所述丰富度确定所述待识别视频的内容优质度。待识别视频的内容优质度。待识别视频的内容优质度。

【技术实现步骤摘要】
视频内容识别方法、装置、电子设备、可读存储介质


[0001]本公开涉及图像处理
,尤其涉及深度学习、目标分类、目标识别
具体而言,本公开涉及一种视频内容识别方法、装置、电子设备、可读存储介质。

技术介绍

[0002]随着互联网技术的飞速发展,海量视频资源被上传到网络中,为了满足和提升不同用户的搜索体验,需要在海量视频中为用户提供视频质量较高的资源。
[0003]如何对海量视频资源进行视频质量的判断,直接影响到推荐、搜索策略的准确度,进而影响到用户的观感体验和用户的留存率。

技术实现思路

[0004]本公开提供了一种用于视频内容识别方法、装置、电子设备、可读存储介质。
[0005]根据本公开的第一方面,提供了一种视频内容识别方法,该方法包括:
[0006]获取待识别视频的音频对应的待识别文本,将所述待识别文本进行分词,获取所述待识别文本对应的至少一个待匹配词;
[0007]将所述待匹配词与预先构建的关键词词库中的关键词进行匹配,根据所述匹配结果获取所述待识别视频对应的丰富度;
[0008]至少根据所述丰富度确定所述待识别视频的内容优质度。
[0009]根据本公开的第二方面,提供了一种视频内容识别装置,该装置包括:
[0010]预处理模块,用于获取待识别视频的音频对应的待识别文本,将所述待识别文本进行分词,获取所述待识别文本对应的至少一个待匹配词;
[0011]丰富度模块,用于将所述待匹配词与预先构建的关键词词库中的关键词进行匹配,根据所述匹配结果获取所述待识别视频对应的丰富度;
[0012]求和模块,用于至少根据所述丰富度确定所述待识别视频的内容优质度。
[0013]根据本公开的第三方面,提供了一种电子设备,该电子设备包括:
[0014]至少一个处理器;以及
[0015]与上述至少一个处理器通信连接的存储器;其中,
[0016]存储器存储有可被上述至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述视频内容识别方法。
[0017]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行上述视频内容识别方法。
[0018]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述视频内容识别方法。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1是本公开实施例提供的的一种视频内容识别方法的流程示意图;
[0022]图2是本公开实施例提供的另一种视频内容识别方法的部分步骤的流程示意图;
[0023]图3是本公开实施例提供的另一种视频内容识别方法的部分步骤的流程示意图;
[0024]图4是本公开实施例提供的另一种视频内容识别方法的部分步骤的流程示意图;
[0025]图5是本公开实施例提供的另一种视频内容识别方法的部分步骤的流程示意图;
[0026]图6是本公开实施例提供的另一种视频内容识别方法的部分步骤的流程示意图;
[0027]图7是本公开实施例提供的一种视频内容识别方法的一种具体实施例的示意图;
[0028]图8是本公开实施例提供的一种视频内容识别装置的结构示意图;
[0029]图9是用来实现本公开实施例的视频内容识别方法的电子设备的框图。
具体实施方式
[0030]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0031]在一些相关技术中,使用深度学习模型检测视频中是否存在马赛克、水印、黑边等低质量问题,低质量问题越少的视频,视频质量越高。
[0032]在一些相关技术中,使用深度学习等方式判断搜索query(查询,具体可以是为了在数据库中寻找某一特定文件、网站、记录或一系列记录,由搜索引擎或数据库送出的消息)与视频内容之间的相关性,与搜索query相关性越高的视频,视频质量越高。
[0033]但不同视频的视频内容也存在优质性不同的区别,视频内容越优质的视频,视频质量越高,仅在低质量维度、相关性维度对视频质量进行刻画无法满足要求。
[0034]本公开实施例提供的视频内容识别方法、装置、电子设备、可读存储介质,旨在解决现有技术的如上技术问题中的至少一个。
[0035]本公开实施例提供的视频内容识别方法可以由终端设备或服务器等电子设备执行,终端设备可以为车载设备、用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者,可通过服务器执行所述方法。
[0036]图1示出了本公开实施例提供的一种视频内容识别方法的流程示意图,如图1所示,该方法可以包括步骤S110、步骤S120、步骤S130。
[0037]在步骤S110中,获取待识别视频的音频对应的待识别文本,将待识别文本进行分词,获取待识别文本对应的至少一个待匹配词;
[0038]在步骤S120中,将待匹配词与预先构建的关键词词库中的关键词进行匹配,根据匹配结果获取待识别视频对应的丰富度;
[0039]在步骤S130中,至少根据丰富度确定待识别视频的内容优质度。
[0040]举例来说,在步骤S110中,待识别视频可以是服务器或数据库中存储的任何视频。
[0041]在一些可能的实现方式中,待识别视频可以是带有字幕的视频。
[0042]在一些可能的实现方式中,如果待识别视频存在对应的字幕文件,则可以直接从字幕文件中获取待识别视频的字幕作为待识别文字。
[0043]在一些可能的实现方式中,如果待识别视频存在字幕但不存在对应的字幕文件,则可以按照固定的频率(如一秒一帧的频率)对待识别视频进行视频帧提取,生成多个视频帧,作为待识别视频对应的多个视频帧,通过将视频帧输入预先训练的OCR(Optical Character Recognition,文字识别)模型,根据OCR模型输出的文本确定待识别文本。
[0044]在一些可能的实现方式中,还可以通过将待识别视频的Audio(音频)输入预先训练的ASR(Automatic Speech Recogni本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频内容识别方法,包括:获取待识别视频的音频对应的待识别文本,将所述待识别文本进行分词,获取所述待识别文本对应的至少一个待匹配词;将所述待匹配词与预先构建的关键词词库中的关键词进行匹配,根据所述匹配结果获取所述待识别视频对应的丰富度;至少根据所述丰富度确定所述待识别视频的内容优质度。2.根据权利要求1所述的方法,还包括:将所述待识别文本输入预先训练的文本识别模型,根据所述文本识别模型的输出确定所述待识别视频对应的情绪正面度;所述文本识别模型是用于判断输入所述文本识别模型的文本对应的情绪的模型;所述至少根据所述丰富度确定所述待识别视频的内容优质度,包括:至少将所述丰富度以及所述情绪正面度进行加权求和,确定所述待识别视频的内容优质度。3.根据权利要求1所述的方法,还包括:将所述待识别视频的音频输入预先训练的声音分类模型,根据所述声音分类模型的输出确定所述待识别视频对应的声音优美度;所述声音分类模型是用于判断输入所述声音分类模型的音频是否刺耳的模型;所述至少根据所述丰富度确定所述待识别视频的内容优质度,包括:至少将所述丰富度以及所述声音优美度进行加权求和,确定所述待识别视频的内容优质度。4.根据权利要求1所述的方法,其中,所述将所述待匹配词与预先构建的关键词词库中的关键词进行匹配,根据所述匹配结果获取所述待识别视频对应的丰富度,包括:将所述待匹配词与预先构建的关键词词库中的关键词进行匹配;根据匹配关键词的数量与所述关键词词库中的关键词的数量的比值确定所述待识别视频对应的丰富度;所述匹配关键词为所述待匹配词中存在与其匹配的待匹配词的关键词。5.根据权利要求1所述的方法,其中,所述关键词词库为按照预定频率进行更新的词库。6.根据权利要求1所述的方法,其中,所述获取待识别视频的音频对应的待识别文本,包括:在所述待识别视频存在字幕的情况下,对所述待识别视频进行视频帧提取,获取所述待识别视频对应的多个视频帧;将所述视频帧输入预先训练的文字识别模型,根据所述文字识别模型的输出确定所述待识别文本;所述文字识别模型是用于确定输入所述文字识别模型的图像中的文字的模型。7.根据权利要求6所述的方法,其中,所述根据所述文字识别模型的输出确定所述待识别文本,包括:将所述文字识别模型的输出确定为第一文本;将所述待识别视频的音频输入预先训练的语音识别模型,根据所述语音识别模型的输出确定第二文本;所述语音识别模型是用于确定输入所述语音识别模型的音频对应的文本
的模型;将所述第一文本和所述第二文本进行拼接,获取所述待识别文本。8.根据权利要求1所述的方法,其中,所述获取待识别视频的音频对应的待识别文本,包括:在所述待识别视频不存在字幕的情况下,将所述待识别视频的音频输入预先训练的语音识别模型,根据所述语音识别模型的输出确定所述待识别文本;所述语音识别模型是用于确定输入所述语音识别模型的音频对应的文本的模型。9.一种视频内容识别装置,包括:预处理模块,用于获取待识别视频的音频对应的待识别文本,将所述待识别文本进行分词,获取所述待识别文本对应的至少一个待匹配词;丰富度模块,用于将所述待匹配词与预先构建的关键词词库中的关键词进行匹配,根据所述...

【专利技术属性】
技术研发人员:崔东林
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1