【技术实现步骤摘要】
用户产生内容过滤方法及相关装置
本申请涉及互联网
,具体而言,涉及一种用户产生内容过滤方法及相关装置。
技术介绍
随着移动互联网和社交网络的大规模普及,内容生产的门槛降低,越来越多的用户每天会产生数以亿计的用户产生内容(UGC),比如评论,点赞等与内容的互动交互。由于用户发表内容的门槛的降低,用户产生内容的存在很多低质量内容需要监管违规过滤处理。现有技术中,用户产生内容(UGC)低质标准模糊,低质量内容占比低(例如,在QQ看点当中图文部分约3%,视频部分约2%),导致有效的低质量内容样本很少;且高准确度标注的低质量内容样本缺乏,标注人力缺乏,低俗和谩骂等内容混在一起,难以做到精确建立模型,现在方案采用手工配置的低俗关键词或者一些浅层模型进行打击,打击覆盖低且误打击严重,结果也没有得到有效沉淀,响应处理效率低。例如,目前,存在使用FastText、LR/SVM分类结果、标题关键词特征等再训练LR(LogisticRegression)逻辑回归模型进行分类过滤的方法。但是,由于用户产生内容情况复杂,例如,存在UGC ...
【技术保护点】
1.一种用户产生内容过滤方法,其特征在于,包括:/n获取用户产生内容的多个维度向量,所述多个维度向量包括词向量和句向量;/n将所述多维度向量输入关键词库和/或种子库和/或内容类型评价模型以确定所述用户产生内容的内容类型,所述关键词库中包含关键词词向量样本,所述种子库中包含句向量样本,所述内容类型评价模型通过多个子评价模型构建;/n在所述内容类型为目标类型时,滤除所述用户产生内容。/n
【技术特征摘要】
1.一种用户产生内容过滤方法,其特征在于,包括:
获取用户产生内容的多个维度向量,所述多个维度向量包括词向量和句向量;
将所述多维度向量输入关键词库和/或种子库和/或内容类型评价模型以确定所述用户产生内容的内容类型,所述关键词库中包含关键词词向量样本,所述种子库中包含句向量样本,所述内容类型评价模型通过多个子评价模型构建;
在所述内容类型为目标类型时,滤除所述用户产生内容。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过基于词向量的textcnn模型、基于句向量的textcnn-like卷积网络模型以及基于词向量、句向量的svm模型构建所述内容类型评价模型。
3.根据权利要求2所述的方法,其特征在于,将所述多维度向量输入内容类型评价模型以确定所述用户产生内容的内容类型,包括:
将所述多维度向量输入基于词向量的textcnn模型中,生成第一评价结果;
将所述多维度向量输入基于句向量的textcnn-like卷积网络模型中,生成第二评价结果;
将所述多维度向量输入基于词向量、句向量的svm模型中,生成第三评价结果;
通过所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型。
4.根据权利要求3所述的方法,其特征在于,通过所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型包括:
根据融合策略,利用所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型,所述融合策略用于指示多个评价结果的联合评价策略。
5.根据权利要求1所述的方法,其特征在于,将所述多维度向量输入关键词库以确定所述用户产生内容的内容类型,包括:
将所述关键词库中的关键词的词向量样本与所述多维度向量中的词向量进行比较;
在所述关键词的词向量样本与所述...
【专利技术属性】
技术研发人员:刘刚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。