【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种基于多模态大模型的视频审核方法。
技术介绍
1、近年来,随着网络视频内容的迅猛发展,社交媒体和视频平台上的用户生成内容(ugc)数量激增。然而,这也带来了大量暴力、色情、仇恨言论和虚假信息的传播风险,对社会秩序和公众安全构成威胁。视频审核因此变得尤为重要,通过及时识别和过滤违规内容,平台可以保护用户免受有害信息的影响,维护良好的网络环境,并增强公众对平台的信任。
2、视频审核方法包括图像内容识别和音频内容识别,目前多为单模态特征识别方法。图像内容识别将视频解码成图像序列,通过识别图像序列判断视频是否违规,静态图像序列的分析无法准确判断上下文,单个图像可能看似无害,但在特定上下文中可能具有明确的违规意义。音频内容识别将视频中音频转为文本,通过文本识别技术判断视频是否违规,转换语音到文本时,往往难以准确理解语境,引起视频漏判或误判。
技术实现思路
1、技术目的:针对现有技术的不足,本专利技术提出一种基于多模态大模型的视频审核方法,将图像特征、音频
...【技术保护点】
1.一种基于多模态大模型的视频审核方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多模态大模型的视频审核方法,其特征在于:多模态分类大模型网络的预处理过程包括网络的构建和网络的训练;网络的构建过程包括:所述多模态分类大模型网络包括依次连接的特征提取层、特征嵌入共享层、多模态特征融合层和分类层;
3.根据权利要求2所述的一种基于多模态大模型的视频审核方法,其特征在于:所述改进ResNet50模型中,对BTNK2模块进行优化,通过在BTNK2模块中融入改进transformer注意力模块得到优化后的BTNK2模块;改进ResNet
...【技术特征摘要】
1.一种基于多模态大模型的视频审核方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多模态大模型的视频审核方法,其特征在于:多模态分类大模型网络的预处理过程包括网络的构建和网络的训练;网络的构建过程包括:所述多模态分类大模型网络包括依次连接的特征提取层、特征嵌入共享层、多模态特征融合层和分类层;
3.根据权利要求2所述的一种基于多模态大模型的视频审核方法,其特征在于:所述改进resnet50模型中,对btnk2模块进行优化,通过在btnk2模块中融入改进transformer注意力模块得到优化后的btnk2模块;改进resnet50模型用于针对输入数据中的图像序列images,计算获取图像特征image features(fi),包括:
4.根据权利要求3所述的一种基于多模态大模型的视频审核方法,其特征在于:第三特征图f3、第四特征图f4的计算公式包括:
5.根据权利要求2所述的一种基于多模态大模型的视频审核方法,其特征在于:所述特征嵌入共享层用于根据图像特征image features(fi)、多模态音频特征aud...
【专利技术属性】
技术研发人员:吴馨,石晓涛,王哲,
申请(专利权)人:南京讯思雅信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。