对发布内容审核的方法和装置制造方法及图纸

技术编号:24094746 阅读:31 留言:0更新日期:2020-05-09 09:45
本发明专利技术公开了一种对发布内容审核的方法和装置。其中,该方法包括:将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;基于相似度,确定第一审核任务,第一审核任务包括:对应相似度的待审核内容;根据第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,第二审核任务依据待审核内容生成得到。本发明专利技术解决了由于现有技术中对在线社交内容的审核过程中存在的漏检、误检的问题的技术问题。

Methods and devices for review of release content

【技术实现步骤摘要】
对发布内容审核的方法和装置
本专利技术涉及互联网
,具体而言,涉及一种对发布内容审核的方法和装置。
技术介绍
安全场景下需要对一些高危用户发布的社区内容/聊天内容进行审核,例如,敏感话题(词)和/或违禁话题(词),每日的审核量很大,对审核人员来说工作量特别大。且社区/聊天场景垃圾类文本较多,大量黑产用户在短时间内会大量发布相似内容,且这批相似内容与历史违规内容存在较大差异,以聊天群为例,相同信息的频繁刷屏,但是因为是不涉及敏感话题和/或违禁词,所以与历史违规内容并不是同一类问题。目前对社区内容/聊天内容进行审核的方案包括:方案一:将历史审核内容加入黑/白样本库,用户发布内容命中白样本库自动通过,命中黑样本库判断自动违规。这种方案的问题是无法对不在黑白样本库的内容进行审核优化,如一批用户在一分钟内发布了一万条相似的新形态的垃圾内容,由于这种新的垃圾内容不在黑白样本库中,审核人员需要全部审核这些10000条数据;方案二:通过聚类等策略,对相似任务仅保留一条。这种方案的问题是部分任务被丢弃,无法对所有任务都给出审核结论。本文档来自技高网...

【技术保护点】
1.一种对发布内容审核的方法,包括:/n将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;/n基于所述相似度,确定第一审核任务,所述第一审核任务包括:对应所述相似度的待审核内容;/n根据所述第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,所述第二审核任务依据所述待审核内容生成得到。/n

【技术特征摘要】
1.一种对发布内容审核的方法,包括:
将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;
基于所述相似度,确定第一审核任务,所述第一审核任务包括:对应所述相似度的待审核内容;
根据所述第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,所述第二审核任务依据所述待审核内容生成得到。


2.根据权利要求1所述的方法,其中,所述将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度包括:
获取所述待审核内容中的内容特征;
将所述内容特征与所述预存审核库中的内容特征进行计算,得到所述相似度。


3.根据权利要求2所述的方法,其中,所述获取所述待审核内容中的内容特征包括:
对所述待审核内容进行分词,得到一个文本内每个词和所述每个词出现的次数的二维数组。


4.根据权利要求3所述的方法,其中,将所述内容特征与所述预存审核库中的内容特征进行计算,得到所述相似度包括:
在所述预存审核库中的内容特征包括二维数组列表的情况下,统计所述二维数组与所述二维数组列表中相同的词和出现的次数;
将每个相同的词在所述二维数组与所述二维数组列表中出现的次数分别进行计算,并将计算结果相加得到第一数值;
统计所述二维数组中所有词和出现的次数,并将所述次数的平方值相加,再取平方根,得到第二数值;
统计所述二维数组列表中所有词和出现的次数,并将所述次数的平方值相加,再取平方根,得到第三数值;
将所述第一数值与所述第二数值和所述第三数值的乘积进行计算,得到所述相似度。


5.根据权利要求4所述的方法,其中,统计所述二维数组与所述二维数组列表中相同的词包括:
将所述待审核内容的二维数组依次与所述预存审核库的二维数组进行余弦相似比较,得到相似度相近或相同的词。


6.根据权利要求1至5中任一项所述的方法,其中,所述基于所述相似度,确定第一审核任务包括:
将所述相似度与预设阈值进行比较,确定所述第一审核任务。


7.根据权利要求6所述的方法,其中,将所述相似度与预设阈值进行比较,确定所述第一审核任务包括:
在所述相似度大于预设阈值的情况下,确定所述待审核内容与所述预存审核库存在相似内容,依据所述相似度对应的内容生成所述...

【专利技术属性】
技术研发人员:阙育飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1