针对文本特征的广告过滤系统及其过滤方法技术方案

技术编号：7578966 阅读：162 留言：0更新日期：2012-07-19 03:14

一种针对文本特征的广告过滤系统及其过滤方法，包括：内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块；其中，内容输入接口用于接收来自于互联网互动产品的用户生成内容；特征分析模块用于分析用户生成内容，提取用户生成内容的多种特征，并根据特征历史情况及人工操作记录计算特征值，生成特征向量；信息库用于存储用户生成内容的各项特征数据；决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤；数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库；指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令，同步给互联网互动产品；人工操作输入接口用于接收并解析人工修改过滤结果的操作；机器学习模块利用每次分析的结果以及人工操作记录进行学习，并根据学习更新决策计算模块。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种，尤其涉及一种针对互联网互动产品的特点，对灌水及商业广告等信息进行准确过滤的过滤系统及其过滤方法，属于网络信息安全

技术介绍
现阶段，互联网上各大论坛、博客等都面临着广告帖的大量灌入，极度影响用户的互动体验。一般，论坛、博客都有提供给版主删除广告、违法信息的操作后台，但是人工不能保证及时的屏蔽广告。本专利技术正是嵌入在这样的操作后台，使用多种方法提取文本特征。这些方法可以看做弱分类器，根据Boosting思想，我们使用人工神经网络将多种识别方法自适应融合。本专利技术识别速度快、识别率高，支持无人工操作。目前，各个网站针对此情况一般都是采用如下的技术措施I.将发帖过多或间隔时间过短的帖子交予人工审查。这种方法可以对一部分广告做到过滤，但是面对过多用户同时发布多篇广告帖时，需要审查的帖子数量过多，管理员压力巨大，审查时间也会过长。2.网友举报发布广告帖的用户对于广告帖，网友可以进行举报，每人可举报一次，当举报数超过一定数量时，对被举报用户进行禁言措施。此种方法需要活跃用户自发参与，但若数量太大或马甲重复发帖，单凭网友力量很难解决。3.关键词过滤方式使用常见广告词汇作为关键词，包含关键词禁止发布。此种方法只能处理低级广告，若出现词变形或绕关键词，则无法识别。4.使用预先设定的过滤参数，过滤参数不能根据不断变化的广告帖自动变化，即使出现过多误判，也只能人工对参数更新，而不能自我学习，无法适应广告帖发展趋势。5.只是使用预订参数自动过滤，对人工操作没有给予考虑当一些经过过滤系统过滤认为并不存在问题的帖子，可能由于其他规则被人工操作删除后...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：吴华鹏，曾明，刘宇，史金城，
申请(专利权)人：凤凰在线北京信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人