面向UGC的自动混合鉴黄方法技术

技术编号：35261223 阅读：15 留言：0更新日期：2022-10-19 10:20

本发明专利技术公开了面向UGC的自动混合鉴黄方法，S01、读取用户提交的自建UGC信息；S02、以图片、URL和文本内容三个维度为基准，分别对自建UGC信息进行图片鉴定、URL鉴定和关键词鉴定；S03、以每个图片权重为8分，每个URL权重为6分，黄色暴力文本内容每个关键词权重为1

全部详细技术资料下载

【技术实现步骤摘要】
面向UGC的自动混合鉴黄方法

[0001]本专利技术涉及面向UGC的自动混合鉴黄方法。

技术介绍

[0002]在中小电商平台上对商家上传的商品信息，包括商品图片、商品名称、外部URL链接等进行人工鉴黄的成本相当大，且审核具有延迟发现的问题，当发现商家上传的商品信息存在涉黄信息后，再进行下架处理可能为时已晚，相关涉黄信息已经传播；若所有商品信息均需要审核之后才能上架，则商家的体验感又会变得极差。另外，现有技术采用单维度鉴定方法，其准确性偏低。

技术实现思路

[0003]针对上述问题，本专利技术提供面向UGC的自动混合鉴黄方法，采用图片+关键词+URL自动混合鉴定方法进行快速甄别，多维度鉴定结果更准确。
[0004]名词解释：1）UGC：User Generated Content，用户的原创内容；2）MD5：信息摘要算法；3）鉴黄：鉴定色情内容；4）云服务商：比如阿里云，腾讯云，华为云，亚马逊等；5）红线文本：国家级别的违禁词。
[0005]为实现上述技术目的，达到上述技术效果，本专利技术通过以下技术方案实现：面向UGC的自动混合鉴黄方法，包括如下步骤：S01、读取用户提交的自建UGC信息；S02、以图片、URL和文本内容三个维度为基准，分别对自建UGC信息进行图片鉴定、URL鉴定和关键词鉴定；S03、以每个图片权重为8分，每个URL权重为6分，黄色暴力文本内容每个关键词权重为1
‑
3分，涉政文本内容每个关键词权重为4
‑
5分，敏感话题文本内容每个关键...

【技术保护点】

【技术特征摘要】
1.面向UGC的自动混合鉴黄方法，其特征在于，包括如下步骤：S01、读取用户提交的自建UGC信息；S02、以图片、URL和文本内容三个维度为基准，分别对自建UGC信息进行图片鉴定、URL鉴定和关键词鉴定；S03、以每个图片权重为8分，每个URL权重为6分，黄色暴力文本内容每个关键词权重为1
‑
3分，涉政文本内容每个关键词权重为4
‑
5分，敏感话题文本内容每个关键词权重为6
‑
7分，红线文本内容每个关键词权重为10分，计算步骤S02的自建UGC信息的得分；S04、若得分为0分：则判定自建UGC信息内容正常，可直接发布；若得分≥1分且小于10分，则对自建UGC信息返回用户违规内容，进行修改后再提交；若得分≥10分，则将自建UGC信息直接进入违禁库，进行二次人工审核；S05、对违禁库内的自建UGC信息按照得分降序人工进行鉴黄审核。2.根据权利要求1所述的面向UGC的自动混合鉴黄方法，其特征在于，在对图片进行图片鉴定时，具体包括如下步骤：11）基于开源项目nsfwjs进行本地分析打标，给出各个标的值，并且计算出图片的MD5值作为图片的唯一特征码；12）将图片，特征码，标记同时上传至服务器；13）以图片的MD5值作为唯一特征码，在违规图片库中以完全匹配的方式查找本次上传的图片的MD5值；14）若违规图片库中存在本次上传的图片的MD5值，则直接驳回；若违规图片库中不存在本次上传的图片...

【专利技术属性】
技术研发人员：刘佳骐，林诚凯，柴逸宁，谢博阳，
申请(专利权)人：镇江砥石网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人