【技术实现步骤摘要】
本专利技术涉及通信
,尤其涉及一种基于用户评论的UGC垃圾内容过滤方法及系统。
技术介绍
UGC(User Generated Content,用户生产内容)是当前国际主流媒体兴起的一种思路,即在编辑的规范和指导下,把内容的产生过程交付到用户手上,让用户获得主语权。每一个UGC内容平台在发展壮大之后,必然伴随着垃圾内容的滋生和成长。这些垃圾内容主要包括色情、广告、欺诈等。如果不能有效管控,垃圾内容的泛滥将严重影响平台的生态健康、用户体验,甚至危及平台的生存。基于文本内容,通过机器学习手段,对正文进行分类并识别出垃圾内容。这种手段已经被广泛用于各大内容平台上。用户在发表新的内容之后,可以立刻通过事先训练好的分类模型判断其是否为垃圾内容。这种方法实现简单,对于有着明显文本特征的正文来说有着非常不错的效果。然而,对抗的双方都会不断进化。实践中发现,恶意用户专利技术了一些新的形式来规避这种基于正文文本的打击。在这些形式中,正文通常并没有包括明显的恶意特征,甚至看起来非常健康,通过吸引人的故事,漂亮的图片吸引其他用户浏览与互动,而垃圾部分则被转移至评论。例如,某社区 ...
【技术保护点】
一种基于用户评论的UGC垃圾内容过滤方法,其特征在于,包括以下步骤:将发表正文数据的用户作为第一用户,将发表评论数据的用户作为第二用户,判断所述第一用户与第二用户是否为同一聚类,若是,则对所述评论数据进行分析,判断所述评论数据是否为垃圾内容,若是,则删除用户生产内容,所述用户生产内容包括正文数据和所有评论数据。
【技术特征摘要】
1.一种基于用户评论的UGC垃圾内容过滤方法,其特征在于,包括以下步骤:将发表正文数据的用户作为第一用户,将发表评论数据的用户作为第二用户,判断所述第一用户与第二用户是否为同一聚类,若是,则对所述评论数据进行分析,判断所述评论数据是否为垃圾内容,若是,则删除用户生产内容,所述用户生产内容包括正文数据和所有评论数据。2.根据权利要求1所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,所述判断所述第二用户与第一用户是否为同一聚类的方法为:若所述第一用户和第二用户满足以下条件,则判断所述第一用户与第二用户是同一聚类:所述第一用户与第二用户为同一用户,所述第一用户与第二用户的登陆位置相同或基本相同,或所述第一用户与第二用户或第二用户与第二用户之间的互动频繁。3.根据权利要求1或2所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,所述判断所述第一用户与第二用户是否为同一聚类之前还包括:获取第一用户的用户信息和发表的正文数据,所述第一用户的用户信息包括第一用户的用户ID,所述正文数据包括正文内容和与正文内容对应的正文ID;建立第一用户的用户ID和正文ID的第一映射关系;存储第一用户的用户信息、第一映射关系和正文数据;获取第二用户的用户信息和发表的评论数据,所述第二用户的用户信息包括第二用户的用户ID,所述评论数据包括评论内容;建立第二用户的用户ID和正文ID的第二映射关系;存储第二用户的用户信息、第二映射关系和评论数据。4.根据权利要求3所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,若所述第二用户为新用户,则根据所述新用户的注册信息判断所述新用户与所述第一用户是否为同一聚类。5.根据权利要求4所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,所述判断所述第一用户与第二用户是否为同一聚类,还包括:若不是同一聚类,则丢弃第二用户的用户信息和第二映射关系。6.根据权利要求4所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,所述判断所述评论数据是否为垃圾内容,还包括:若不是垃圾内容,...
【专利技术属性】
技术研发人员:梁传明,漆仁,尹鹏达,刘雪飘,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。