面向UGC的自动混合鉴黄方法技术

技术编号:35261223 阅读:15 留言:0更新日期:2022-10-19 10:20
本发明专利技术公开了面向UGC的自动混合鉴黄方法,S01、读取用户提交的自建UGC信息;S02、以图片、URL和文本内容三个维度为基准,分别对自建UGC信息进行图片鉴定、URL鉴定和关键词鉴定;S03、以每个图片权重为8分,每个URL权重为6分,黄色暴力文本内容每个关键词权重为1

【技术实现步骤摘要】
面向UGC的自动混合鉴黄方法


[0001]本专利技术涉及面向UGC的自动混合鉴黄方法。

技术介绍

[0002]在中小电商平台上对商家上传的商品信息,包括商品图片、商品名称、外部URL链接等进行人工鉴黄的成本相当大,且审核具有延迟发现的问题,当发现商家上传的商品信息存在涉黄信息后,再进行下架处理可能为时已晚,相关涉黄信息已经传播;若所有商品信息均需要审核之后才能上架,则商家的体验感又会变得极差。另外,现有技术采用单维度鉴定方法,其准确性偏低。

技术实现思路

[0003]针对上述问题,本专利技术提供面向UGC的自动混合鉴黄方法,采用图片+关键词+URL自动混合鉴定方法进行快速甄别,多维度鉴定结果更准确。
[0004]名词解释:1)UGC:User Generated Content,用户的原创内容;2)MD5:信息摘要算法;3)鉴黄:鉴定色情内容;4)云服务商:比如阿里云,腾讯云,华为云,亚马逊等;5)红线文本:国家级别的违禁词。
[0005]为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:面向UGC的自动混合鉴黄方法,包括如下步骤:S01、读取用户提交的自建UGC信息;S02、以图片、URL和文本内容三个维度为基准,分别对自建UGC信息进行图片鉴定、URL鉴定和关键词鉴定;S03、以每个图片权重为8分,每个URL权重为6分,黄色暴力文本内容每个关键词权重为1

3分,涉政文本内容每个关键词权重为4

5分,敏感话题文本内容每个关键词权重为6

7分,红线文本内容每个关键词权重为10分,计算步骤S02的自建UGC信息的得分;S04、若得分为0分:则判定自建UGC信息内容正常,可直接发布;若得分≥1分且小于10分,则对自建UGC信息返回用户违规内容,进行修改后再提交;若得分≥10分,则将自建UGC信息直接进入违禁库,进行二次人工审核;S05、对违禁库内的自建UGC信息按照得分降序人工进行鉴黄审核。
[0006]优选,在对图片进行图片鉴定时,具体包括如下步骤:11)基于开源项目nsfwjs进行本地分析打标,给出各个标的值,并且计算出图片的MD5值作为图片的唯一特征码;12)将图片,特征码,标记同时上传至服务器;
13)以图片的MD5值作为唯一特征码,在违规图片库中以完全匹配的方式查找本次上传的图片的MD5值;14)若违规图片库中存在本次上传的图片的MD5值,则直接驳回;若违规图片库中不存在本次上传的图片的MD5值,则管理后台根据打标情况进行排序,优先审核高风险图片。
[0007]优选,步骤14)中,若发现新的违规图片,则将该图片的MD5值录入违规图片库中;若为正常图片,则通过验证。
[0008]优选,在对URL进行URL鉴定时,具体包括如下步骤:21)对内容进行解析,解析出内容中的URL;22)将解析出的URL与违禁URL库进行比对;23)给出鉴定结果。
[0009]优选,在对文本内容进行关键词鉴定时,具体包括如下步骤:31)基于stanfordnlp对文本内容进行分词和拆词,将完整的文本内容处理成单个的单词;32)对所有单词进行分类;33)将步骤31)获取的所有单词与关键词词库内的单词进行完全匹配;34)将步骤33)处所有匹配出来的单词特性进行汇总和去重,得到完整内容的特性偏向;35)给出鉴定结果。
[0010]优选,步骤32)中,单词分类包括政治敏感类词组、暴力词组和色情词组。
[0011]优选,步骤33)中,关键词词库包括动态违禁词、基础违禁词和紧急违禁词。
[0012]优选,步骤34)中,完整内容的特性偏向包括色情偏向、涉政偏向和暴力偏向。
[0013]本专利技术的有益效果是:目前市面上的云服务商基本提供的都是单维度审核机制,存在单维度鉴黄准确度不够的问题,而本专利技术通过3个维度的混合鉴黄,给出内容是否违规,违规程度等建议信息,大大提高鉴定的准确性,实现快速甄别。
附图说明
[0014]图1是本专利技术面向UGC的自动混合鉴黄方法的流程图;图2是本专利技术图片鉴黄的流程图;图3是本专利技术关键词鉴黄的流程图;图4是本专利技术URL鉴黄的流程图。
具体实施方式
[0015]下面结合附图和具体的实施例对本专利技术技术方案作进一步的详细描述,以使本领域的技术人员可以更好的理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。
[0016]如图1所示,面向UGC的自动混合鉴黄方法,包括如下步骤:S01、读取用户提交的自建UGC信息(User Generated Content,用户的原创内容),
可以通过上传端口直接读取用户提交的自建UGC信息。
[0017]S02、以图片、URL和文本内容三个维度为基准,分别对自建UGC信息进行图片鉴定、URL鉴定和关键词鉴定,其中:第一、图片维度:基于开源项目nsfwjs在客户端(客户端即上传图片的机器)进行图片内容的审核打标,当用户进行图片上传并选取图片的时候,进行本地鉴定打标:若图片内容无害,则直接上传保存;若图片内容的色情比例较高,则发出警告,提醒用户上传有风险,如果用户执意上传,对于管理员可优先进行审核;对于实锤涉黄图片,将该图片的关键信息自动录入违规图片库,用于下一次相同图片被上传时直接驳回操作,大大提升图片鉴定的效率。
[0018]具体的,在对图片进行图片鉴定时,如图2所示,具体包括如下步骤:11)基于开源项目nsfwjs进行本地分析打标,比如机器将图片打上“无害的”、“暴力”、“一般无害”、“色情”和“性感”等标签,给出各个标的值,并且计算出图片的MD5值作为图片的唯一特征码;12)将图片,特征码,标记同时上传至服务器;13)以图片的MD5值作为唯一特征码,在违规图片库中以完全匹配的方式查找本次上传的图片的MD5值;14)若违规图片库中存在本次上传的图片的MD5值,则直接驳回;若违规图片库中不存在本次上传的图片的MD5值,则管理后台根据打标情况进行排序,优先审核高风险图片。
[0019]优选,步骤14)中,若发现新的违规图片,则将该图片的MD5值录入违规图片库中;若为正常图片,则通过验证。
[0020]第二、URL维度:对违反国家规定的网站的URL网址,建立动态违禁URL库,在用户提交任意内容的时候解析出其URL信息的部分,与违禁URL库进行比对,给出是否涉黄结论。
[0021]也即,在对URL进行URL鉴定时,如图4所示,具体包括如下步骤:21)对内容进行解析,解析出内容中的URL;22)将解析出的URL与违禁URL库进行比对;23)给出鉴定结果。
[0022]第三、关键词维度:对具有涉黄嫌疑的词,建立动态关键词词库,在用户进行任意内容提交的时候,通过对内容的解析、拆词,再对词库内词条进行比对,给出是否涉黄结论。
[0023]优选,在对文本内容进行关键词鉴定时,如图3所示,具体包括如下步骤:31)基于stanfordnlp对文本内容进行分词和拆词,将完整的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向UGC的自动混合鉴黄方法,其特征在于,包括如下步骤:S01、读取用户提交的自建UGC信息;S02、以图片、URL和文本内容三个维度为基准,分别对自建UGC信息进行图片鉴定、URL鉴定和关键词鉴定;S03、以每个图片权重为8分,每个URL权重为6分,黄色暴力文本内容每个关键词权重为1

3分,涉政文本内容每个关键词权重为4

5分,敏感话题文本内容每个关键词权重为6

7分,红线文本内容每个关键词权重为10分,计算步骤S02的自建UGC信息的得分;S04、若得分为0分:则判定自建UGC信息内容正常,可直接发布;若得分≥1分且小于10分,则对自建UGC信息返回用户违规内容,进行修改后再提交;若得分≥10分,则将自建UGC信息直接进入违禁库,进行二次人工审核;S05、对违禁库内的自建UGC信息按照得分降序人工进行鉴黄审核。2.根据权利要求1所述的面向UGC的自动混合鉴黄方法,其特征在于,在对图片进行图片鉴定时,具体包括如下步骤:11)基于开源项目nsfwjs进行本地分析打标,给出各个标的值,并且计算出图片的MD5值作为图片的唯一特征码;12)将图片,特征码,标记同时上传至服务器;13)以图片的MD5值作为唯一特征码,在违规图片库中以完全匹配的方式查找本次上传的图片的MD5值;14)若违规图片库中存在本次上传的图片的MD5值,则直接驳回;若违规图片库中不存在本次上传的图片...

【专利技术属性】
技术研发人员:刘佳骐林诚凯柴逸宁谢博阳
申请(专利权)人:镇江砥石网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1