一种基于多模态大模型的视频审核方法技术

技术编号：43374145 阅读：52 留言：0更新日期：2024-11-19 17:53

本发明专利技术公开了一种基于多模态大模型的视频审核方法，包括：获取待审核视频，进行视频格式转换、视频质量提升等预处理操作，得到待审核多模态数据作为输入数据；输入数据为待审核多模态数据，包括图像序列Images、音频序列Audios、文本序列Texts；预处理得到多模态分类大模型网络，将输入数据输入至多模态分类大模型网络后输出分类结果及其对应分数，当分类结果为违规标签且对应分数大于预设阈值时，判定待审核视频为违规视频。本发明专利技术将图像特征、音频特征、文本特征使用改进注意力多模态特征融合方法进行特征融合，该方法能够充分利用不同模态信息的互补性，提高审核的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种基于多模态大模型的视频审核方法。

技术介绍

1、近年来，随着网络视频内容的迅猛发展，社交媒体和视频平台上的用户生成内容(ugc)数量激增。然而，这也带来了大量暴力、色情、仇恨言论和虚假信息的传播风险，对社会秩序和公众安全构成威胁。视频审核因此变得尤为重要，通过及时识别和过滤违规内容，平台可以保护用户免受有害信息的影响，维护良好的网络环境，并增强公众对平台的信任。

2、视频审核方法包括图像内容识别和音频内容识别，目前多为单模态特征识别方法。图像内容识别将视频解码成图像序列，通过识别图像序列判断视频是否违规，静态图像序列的分析无法准确判断上下文，单个图像可能看似无害，但在特定上下文中可能具有明确的违规意义。音频内容识别将视频中音频转为文本，通过文本识别技术判断视频是否违规，转换语音到文本时，往往难以准确理解语境，引起视频漏判或误判。

技术实现思路

1、技术目的：针对现有技术的不足，本专利技术提出一种基于多模态大模型的视频审核方法，将图像特征、音频...

【技术保护点】

1.一种基于多模态大模型的视频审核方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态大模型的视频审核方法，其特征在于：多模态分类大模型网络的预处理过程包括网络的构建和网络的训练；网络的构建过程包括：所述多模态分类大模型网络包括依次连接的特征提取层、特征嵌入共享层、多模态特征融合层和分类层；

3.根据权利要求2所述的一种基于多模态大模型的视频审核方法，其特征在于：所述改进ResNet50模型中，对BTNK2模块进行优化，通过在BTNK2模块中融入改进transformer注意力模块得到优化后的BTNK2模块；改进ResNet50模型用于针对输入...

【技术特征摘要】

1.一种基于多模态大模型的视频审核方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种基于多模态大模型的视频审核方法，其特征在于：所述改进resnet50模型中，对btnk2模块进行优化，通过在btnk2模块中融入改进transformer注意力模块得到优化后的btnk2模块；改进resnet50模型用于针对输入数据中的图像序列images，计算获取图像特征image features(fi)，包括：

4.根据权利要求3所述的一种基于多模态大模型的视频审核方法，其特征在于：第三特征图f3、第四特征图f4的计算公式包括：

5.根据权利要求2所述的一种基于多模态大模型的视频审核方法，其特征在于：所述特征嵌入共享层用于根据图像特征image features(fi)、多模态音频特征aud...

【专利技术属性】
技术研发人员：吴馨，石晓涛，王哲，
申请(专利权)人：南京讯思雅信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人