System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及深度学习,具体为一种图像数据多模态合规检测方法。
技术介绍
1、随着互联网、大数据技术的发展,数据的交易与传播越发频繁。数据的传播需要符合相关法律法规的要求,传播含有有害信息的数据将产生法律风险。
2、现有技术中,相比于文字数据以及可以转换为文字数据的语音数据,图像数据中所蕴含的信息更难进行识别,对图像是否含有涉黄、暴力、违禁物品等敏感违规信息进行检测也更加困难。电子商务、电子政务等系统每天都需要处理大量的图像数据,而且随着时间推移,敏感违规图像的种类也在不断变化,如果不能及时更新敏感违规图像的检测方法,可能会造成严重的不良影响。
技术实现思路
1、本专利技术的目的在于提供一种图像数据多模态合规检测方法,以解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:一种图像数据多模态合规检测方法,所述方法包括以下步骤:
3、选用clip视觉语言模型作为基础模型;
4、构建图像数据集;
5、构建违规敏感信息的文字描述;
6、使用clip模型将违规敏感信息的文字描述进行向量化;
7、将训练集中的图像使用clip模型进行向量化;
8、设定阈值,利用图像的违规概率进行分类;
9、在测试集中测试检测效果,并根据效果调整文字描述和阈值;
10、部署到服务器上,使用构造的文字描述和阈值,利用clip模型进行图像合规性检测。
11、优
12、优选的,构建违规敏感信息的文字描述,分为含有违规信息图像的特征描述与不含违规信息图像的特征描述。
13、优选的,将训练集中的图像使用clip模型进行向量化,并与使用clip模型将违规敏感信息的文字描述进行向量化中的文字描述向量一起计算余弦相似度和违规概率。
14、优选的,利用clip模型进行图像合规性检测后,屏蔽违规图像。
15、与现有技术相比,本专利技术的有益效果是:
16、本专利技术提出的图像数据多模态合规检测方法,通过构造合适的违规信息文字描述,使用视觉语言模型clip对图像进行合规性检测,判断图像中是否包含指定的违规信息,并采取措施防止违规图像的传播;将视觉语言模型部署后,无须提供大量违规敏感图像的样例,只用提供对敏感信息的文字描述,即可得到图像与该敏感信息的吻合程度。如果发现有图像与敏感信息的吻合程度很高,系统会将此图片屏蔽,并向管理员汇报,由管理员根据实际情况进行处理。通过此举,管理员可以随时修改对违规敏感信息的定义,实现对违规敏感图像的快速识别和处理。
本文档来自技高网...【技术保护点】
1.一种图像数据多模态合规检测方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种图像数据多模态合规检测方法,其特征在于:构建图像数据集,包括含有需要检测的违规敏感信息的图片和不含违规敏感信息的图片,并分出训练集和测试集。
3.根据权利要求1所述的一种图像数据多模态合规检测方法,其特征在于:构建违规敏感信息的文字描述,分为含有违规信息图像的特征描述与不含违规信息图像的特征描述。
4.根据权利要求1所述的一种图像数据多模态合规检测方法,其特征在于:将训练集中的图像使用CLIP模型进行向量化,并与使用CLIP模型将违规敏感信息的文字描述进行向量化中的文字描述向量一起计算余弦相似度和违规概率。
5.根据权利要求1所述的一种图像数据多模态合规检测方法,其特征在于:利用CLIP模型进行图像合规性检测后,屏蔽违规图像。
【技术特征摘要】
1.一种图像数据多模态合规检测方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种图像数据多模态合规检测方法,其特征在于:构建图像数据集,包括含有需要检测的违规敏感信息的图片和不含违规敏感信息的图片,并分出训练集和测试集。
3.根据权利要求1所述的一种图像数据多模态合规检测方法,其特征在于:构建违规敏感信息的文字描述,分为含有违规信息图像的特征描述...
【专利技术属性】
技术研发人员:张吉臣,段强,姜凯,魏子重,景伟,李锐,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。