一种互联网图片广告过滤系统及其过滤方法技术方案

技术编号:7275199 阅读:196 留言:0更新日期:2012-04-18 21:05
一种互联网图片广告过滤系统及其过滤方法,包括:内容输入接口、特征分析模块、以及决策计算模块、信息库、指令输出接口;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品。

【技术实现步骤摘要】

本专利技术涉及,尤其涉及一种针对互联网互动产品的特点,对灌水及商业广告等信息进行准确过滤的过滤系统及其过滤方法,属于网络信息安全

技术介绍
现阶段,互联网上各大论坛、博客等都面临着广告帖的大量灌入,极度影响用户的互动体验。一般,论坛、博客都有提供给版主删除广告、违法信息的操作后台,但是人工不能保证及时的屏蔽广告。本专利技术正是嵌入在这样的操作后台,使用多种方法提取文本特征。这些方法可以看做弱分类器,根据Boosting思想,我们使用人工神经网络将多种识别方法自适应融合。本专利技术识别速度快、识别率高,支持无人工操作。目前,各个网站针对此情况一般都是采用如下的技术措施1.将发帖过多或间隔时间过短的帖子交予人工审查。这种方法可以对一部分广告做到过滤,但是面对过多用户同时发布多篇广告帖时,需要审查的帖子数量过多,管理员压力巨大,审查时间也会过长。2.网友举报发布广告帖的用户对于广告帖,网友可以进行举报,每人可举报一次,当举报数超过一定数量时,对被举报用户进行禁言措施。此种方法需要活跃用户自发参与,但若数量太大或马甲重复发帖,单凭网友力量很难解决。3.关键词过滤方式使用常见广告词汇作为关键词,包含关键词禁止发布。此种方法只能处理低级广告,若出现词变形或绕关键词,则无法识别。4.使用预先设定的过滤参数,过滤参数不能根据不断变化的广告帖自动变化,即使出现过多误判,也只能人工对参数更新,而不能自我学习,无法适应广告帖发展趋势。5.只是使用预订参数自动过滤,对人工操作没有给予考虑当一些经过过滤系统过滤认为并不存在问题的帖子,可能由于其他规则被人工操作删除后,由于不会学习人工操作,下次系统遇到相似的帖子仍然不会过滤。针对现有技术的种种不足,本专利技术嵌入到互动产品用户生成内容管理后台,根据内容及用户行为过滤广告帖内容。需要解决如下问题1.根据内容特点识别及过滤广告帖等不良内容;2.结合用户历史及内容历史提高识别准确度;3.根据图片的发布特征识别广告帖。
技术实现思路
本专利技术所要解决的技术问题在于提供,可以对广告帖等不良信息进行自动过滤。为实现上述的专利技术目的,本专利技术采用下述的技术方案一种互联网图片广告过滤系统,包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品; 所述内容输入接口包括数据输入接口,校验输入的用户生成内容数据的数据格式以及完整性;解析器,解析输入的用户生成内容数据,获得ID、标题、内容、用户ID、发布时间等fn息ο所述特征分析模块包括发帖间隔分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块。发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔,并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值;URL提取器从解析后的数据中识别出所有URL ;URL分析模块对每个URL进行次数统计,并根据出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值。所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点,计算图片校验值;对该图片校验值进行分析,得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次,并根据相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。所述用户分析模块从用户库中查询用户发文记录,根据用户发帖被删除和通过次数进行计算用户特征值。所述信息库具有用户库、图片特征库、URL库,其中,用户库用于存储用户ID和上次发帖时间;图片特征库用于存储图片特征、图片出现次数以及广告过滤通过和删除次数; URL库用于存储tol内容、URL出现次数以及广告过滤通过和删除次数;所述决策计算模块根据发帖间隔分析模块、URL分析模块、图片内容分析模块以及用户分析模块产生的特征值生成一个多维特征向量,并经由神经网络进行分类,确定输入的用户生成内容是否为广告帖。一种互联网图片广告过滤方法,基于上述广告过滤系统实现,其特征在于包括如下的步骤a.接收用户生成内容;b.对用户生成内容进行解析;c.分析用户生成内容,并提取用户生成内容的多种特征;d.根据多种特征分别得到用户内容可能为广告的多个特征值;e.根据多个特征值生成一个多维特征向量;f.利用多维特征向量对用户生产数据进行神经网络分类,确定输入的用户生成内容是否为广告帖;g.更新信息库;h.输出显示或屏蔽操作指令至互动产品。所述步骤c中提取用户生成内容的多种特征具体包括提取发帖间隔特征,用于根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔特征;提取URL特征,用于分析与当前URL相同的URL出现过多少次来获得 URL特征;提取图片特征,用于分析与当前图片相同的图片出现过多少次来获得图片特征; 提取用户特征,根据用户发帖被删除和通过次数来获得用户特征。所述步骤d中得到用户内容可能为广告的多个特征值包括发帖间隔特征值、URL 特征值、图片特征值和用户特征值。所述步骤f使用人工神经网络分类算法对步骤e生成的特征向量进行分类。所述步骤g中更新信息库包括更新URL库、用户库、以及图片特征库,其中更新 URL 库更新URL内容及其出现次数还有人工操作通过和删除次数;更新用户库更新用户ID和上次发帖时间还有人工操作通过和删除次数;更新图片特征库更新图片校验值、相同图片出现次数和广告过滤通过/删除次数还有人工操作通过和删除次数。利用本专利技术所提供的广告过滤系统及其过滤方法可以有效解决
技术介绍
中提及的四个问题本专利技术提供的广告过滤系统及其过滤方法1.具有自主学习能力,能够根据每次的过滤结果每次分析和过滤的结果进行学习,并根据学习更新系统,与自动根据广告帖发展趋势做出适应性过滤策略调整。2.覆盖了内容过滤及多种行为过滤。相对于其他方法,识别更全面,召回率很有优势,漏删少。4.使用神经网络对特征向量进行决策计算,全体特征值对决策均有贡献。相对其他技术,准确率很有优势,误删少。下面结合附图和具体实施方式对本专利技术作进一步的详细说明。 附图说明图1为本专利技术所提供的广告过滤系统的整体结构示意图;图2为本专利技术所提供的广告过滤系统的流程图;图3为本专利技术所提供的广告过滤系统的神经网络学习流程图;图4本专利技术所提供的广告过滤系统的决策计算模块的人工神经网络结构图;图5本专利技术所提供的广告过滤系统的发帖间隔分析的高斯函数图;图6是一广告贴示例图。具体实施方式为了提高本专利技术对不良信息的过滤效果,专利技术人对大量互联网互动产品中的灌水、广告帖进行了分析,发现灌水或广告帖包括以下特点的一点或几点1.多次发布发布广告者希望更多的人看到广告,会在多个版块、重复发相同或相似内容。2.发布时间间隔短由于使用广告发布机之类的软件,发布时间间隔比用户正常发布时间间隔本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:吴华鹏曾明刘宇史金城
申请(专利权)人:凤凰在线北京信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术