视频内容识别方法、装置、电子设备、可读存储介质制造方法及图纸

技术编号：38718005 阅读：15 留言：0更新日期：2023-09-08 15:00

本公开提供了视频内容识别方法、装置、电子设备、可读存储介质，图像处理技术领域，尤其涉及深度学习、目标分类、目标识别技术领域。具体实现方案为：获取待识别视频的音频对应的待识别文本，将所述待识别文本进行分词，获取所述待识别文本对应的至少一个待匹配词；将所述待匹配词与预先构建的关键词词库中的关键词进行匹配，根据所述匹配结果获取所述待识别视频对应的丰富度；至少根据所述丰富度确定所述待识别视频的内容优质度。待识别视频的内容优质度。待识别视频的内容优质度。

全部详细技术资料下载

【技术实现步骤摘要】
视频内容识别方法、装置、电子设备、可读存储介质

[0001]本公开涉及图像处理
，尤其涉及深度学习、目标分类、目标识别
具体而言，本公开涉及一种视频内容识别方法、装置、电子设备、可读存储介质。

技术介绍

[0002]随着互联网技术的飞速发展，海量视频资源被上传到网络中，为了满足和提升不同用户的搜索体验，需要在海量视频中为用户提供视频质量较高的资源。
[0003]如何对海量视频资源进行视频质量的判断，直接影响到推荐、搜索策略的准确度，进而影响到用户的观感体验和用户的留存率。

技术实现思路

[0004]本公开提供了一种用于视频内容识别方法、装置、电子设备、可读存储介质。
[0005]根据本公开的第一方面，提供了一种视频内容识别方法，该方法包括：
[0006]获取待识别视频的音频对应的待识别文本，将所述待识别文本进行分词，获取所述待识别文本对应的至少一个待匹配词；
[0007]将所述待匹配词与预先构建的关键词词库中的关键词进行匹配，根据所述匹配结果获取所述待识别视频对应的丰富度；
[0008]至少根据所述丰富度确定所述待识别视频的内容优质度。
[0009]根据本公开的第二方面，提供了一种视频内容识别装置，该装置包括：
[0010]预处理模块，用于获取待识别视频的音频对应的待识别文本，将所述待识别文本进行分词，获取所述待识别文本对应的至少一个待匹配词；
[0011]丰富度模块，用于将所述待匹配词与预先构建的关键词词库中的关键词进行匹...

【技术保护点】

【技术特征摘要】
1.一种视频内容识别方法，包括：获取待识别视频的音频对应的待识别文本，将所述待识别文本进行分词，获取所述待识别文本对应的至少一个待匹配词；将所述待匹配词与预先构建的关键词词库中的关键词进行匹配，根据所述匹配结果获取所述待识别视频对应的丰富度；至少根据所述丰富度确定所述待识别视频的内容优质度。2.根据权利要求1所述的方法，还包括：将所述待识别文本输入预先训练的文本识别模型，根据所述文本识别模型的输出确定所述待识别视频对应的情绪正面度；所述文本识别模型是用于判断输入所述文本识别模型的文本对应的情绪的模型；所述至少根据所述丰富度确定所述待识别视频的内容优质度，包括：至少将所述丰富度以及所述情绪正面度进行加权求和，确定所述待识别视频的内容优质度。3.根据权利要求1所述的方法，还包括：将所述待识别视频的音频输入预先训练的声音分类模型，根据所述声音分类模型的输出确定所述待识别视频对应的声音优美度；所述声音分类模型是用于判断输入所述声音分类模型的音频是否刺耳的模型；所述至少根据所述丰富度确定所述待识别视频的内容优质度，包括：至少将所述丰富度以及所述声音优美度进行加权求和，确定所述待识别视频的内容优质度。4.根据权利要求1所述的方法，其中，所述将所述待匹配词与预先构建的关键词词库中的关键词进行匹配，根据所述匹配结果获取所述待识别视频对应的丰富度，包括：将所述待匹配词与预先构建的关键词词库中的关键词进行匹配；根据匹配关键词的数量与所述关键词词库中的关键词的数量的比值确定所述待识别视频对应的丰富度；所述匹配关键词为所述待匹配词中存在与其匹配的待匹配词的关键词。5.根据权利要求1所述的方法，其中，所述关键词词库为按照预定频率进行更新的词库。6.根据权利要求1所述的方法，其中，所述获取待识别视频的音频对应的待识别文本，包括：在所述待识别视频存在字幕的情况下，对所述待识别视频进行视频帧提取，获取所述待识别视频对应的多个视频帧；将所述视频帧输入预先训练的文字识别模型，根据所述文字识别模型的输出确定所述待识别文本；所述文字识别模型是用于确定输入所述文字识别模型的图像中的文字的模型。7.根据权利要求6所述的方法，其中，所述根据所述文字识别模型的输出确定所述待识别文本，包括：将所述文字识别模型的输出确定为第一文本；将所述待识别视频的音频输入预先训练的语音识别模型，根据所述语音识别模型的输出确定第二文本；所述语音识别模型是用于确定输入所述语音识别模型的音频对应的文本
的模型；将所述第一文本和所述第二文本进行拼接，获取所述待识别文本。8.根据权利要求1所述的方法，其中，所述获取待识别视频的音频对应的待识别文本，包括：在所述待识别视频不存在字幕的情况下，将所述待识别视频的音频输入预先训练的语音识别模型，根据所述语音识别模型的输出确定所述待识别文本；所述语音识别模型是用于确定输入所述语音识别模型的音频对应的文本的模型。9.一种视频内容识别装置，包括：预处理模块，用于获取待识别视频的音频对应的待识别文本，将所述待识别文本进行分词，获取所述待识别文本对应的至少一个待匹配词；丰富度模块，用于将所述待匹配词与预先构建的关键词词库中的关键词进行匹配，根据所述...

【专利技术属性】
技术研发人员：崔东林，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人