The invention discloses an audio-video processing method, device, device and medium, which relates to the field of computer technology. The method includes: acquiring video files; separating image frame information and audio information from the video files; extracting image feature information and audio feature information from the image frame information and the audio information, respectively; and extracting the image feature information and audio feature information from the image frame information and the audio feature information; The information is fused into video content feature information, and the corresponding classification result of the video file is determined according to the video content feature information. The invention combines audio feature information in video and image feature information of video frame to classify video, improves the accuracy and recall rate of video classification, thereby reducing the manual cost of video classification audit.
【技术实现步骤摘要】
一种音视频处理方法、装置、设备及介质
本专利技术涉及计算机
,尤其涉及一种音视频处理方法、装置、设备及介质。
技术介绍
随着计算机技术的快速发展,深度学习技术在图像理解的多个领域取得巨大进展,如深度学习技术应用到图像中物体分类,物体检测,物体分割等任务中。到目前为止,深度学习技术在图像理解领域中的技术已经非常成熟了,并慢慢应用到视频内容理解任务中。但是,与图像内容理解相比,视频内容理解还有一段很长的路要走。在视频内容理解任务中,视频分类是一个最基本的任务,视频分类领域已成为很多研究者致力研究的热点。具体的,视频分类主要是将视频分类到不同的标签,即将视频分类到不同的视频类别中,以基于视频所属的视频类别设置视频标签。例如,短视频类的应用每天会由用户制作并上传大量短视频,这些短视频内容多种多样,不同的观众喜欢的短视频类别不一样。通过将短视频分类成不同标签的视频,一方面方便用户搜索自己感兴趣的视频类别,另一方面可以针对不同的用户推荐其感兴趣的视频,从而可以提高观众在短视频类应用的停留时长。目前,将用户上传的短视频分类到不同的标签的做法通常是先通过算法挑选,然后再由人 ...
【技术保护点】
1.一种音视频处理方法,其特征在于,包括:获取视频文件;从所述视频文件分离出图像帧信息和音频信息;分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息;将所述图像特征信息和音频特征信息融合为视频内容特征信息;依据所述视频内容特征信息确定所述视频文件对应的分类结果。
【技术特征摘要】
1.一种音视频处理方法,其特征在于,包括:获取视频文件;从所述视频文件分离出图像帧信息和音频信息;分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息;将所述图像特征信息和音频特征信息融合为视频内容特征信息;依据所述视频内容特征信息确定所述视频文件对应的分类结果。2.根据权利要求1所述的方法,其特征在于,所述分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息,包括:通过预先训练的图像特征提取器,提取所述图像帧信息对应的图像特征信息;通过预先训练的音频特征提取器,提取所述音频信息对应的音频特征信息。3.根据权利要求1所述的方法,其特征在于,所述将所述图像特征信息和音频特征信息融合为视频内容特征信息,包括:通过向量来表示图像特征信息和音频特征信息,且所述图像特征信息的向量维度与所述音频特征信息的向量维度相等;基于所述图像特征信息中的图像向量元素和所述音频特征信息中的音频向量元素,生成作为所述视频内容特征信息的视频内容特征矩阵。4.根据权利要求2所述的方法,其特征在于,还包括:从预设的输入数据集中获取视频数据;从所述视频数据提取出待训练图像帧信息和待训练音频信息;分别提取所述待训练图像帧信息的图像特征信息和所述待训练音频信息的音频特征信息;将所述待训练图像帧信息的图像特征信息作为训练的监督信息,并采用所述待训练音频信息的音频特征信息进行训练,得到所述音频特征提取器。5.根据权利要求2所述的方法,其特征在于,还包括:获取待训练图像帧信息;依据所述待训练图像帧信息进行训练,得到视频分类网络;基于所述视频分类网络中的非输出层,生成所述图像特征提取器。6.根据权利要求1至5任一所述的方法,其特征在于,所述依据所述视频内容特征信息确定所述视频文件对应的分类结果,包括:依据所述视频内容特征信息生成特征图信息;依据所述特征图信息和所述视频内容特征信息,生成目标特征信息;依据所述目标特征信息进行分类处理,得到所述分类结果。7.根据权利要求6所述的方法,所述依据所述视频内容特征信息生成特征图信息,包括:将所述视频内容特征信息输入到预设的注意力机制模块中进行注意力特征提取;基于所述注意力机制模块输出...
【专利技术属性】
技术研发人员:刘文奇,刘运,梁柱锦,
申请(专利权)人:广州市百果园信息技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。