针对文本特征的广告过滤系统及其过滤方法技术方案

技术编号:7578966 阅读:162 留言:0更新日期:2012-07-19 03:14
一种针对文本特征的广告过滤系统及其过滤方法,包括:内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品;人工操作输入接口用于接收并解析人工修改过滤结果的操作;机器学习模块利用每次分析的结果以及人工操作记录进行学习,并根据学习更新决策计算模块。

【技术实现步骤摘要】

本专利技术涉及一种,尤其涉及一种针对互联网互动产品的特点,对灌水及商业广告等信息进行准确过滤的过滤系统及其过滤方法,属于网络信息安全

技术介绍
现阶段,互联网上各大论坛、博客等都面临着广告帖的大量灌入,极度影响用户的互动体验。一般,论坛、博客都有提供给版主删除广告、违法信息的操作后台,但是人工不能保证及时的屏蔽广告。本专利技术正是嵌入在这样的操作后台,使用多种方法提取文本特征。这些方法可以看做弱分类器,根据Boosting思想,我们使用人工神经网络将多种识别方法自适应融合。本专利技术识别速度快、识别率高,支持无人工操作。目前,各个网站针对此情况一般都是采用如下的技术措施I.将发帖过多或间隔时间过短的帖子交予人工审查。这种方法可以对一部分广告做到过滤,但是面对过多用户同时发布多篇广告帖时,需要审查的帖子数量过多,管理员压力巨大,审查时间也会过长。2.网友举报发布广告帖的用户对于广告帖,网友可以进行举报,每人可举报一次,当举报数超过一定数量时,对被举报用户进行禁言措施。此种方法需要活跃用户自发参与,但若数量太大或马甲重复发帖,单凭网友力量很难解决。3.关键词过滤方式使用常见广告词汇作为关键词,包含关键词禁止发布。此种方法只能处理低级广告,若出现词变形或绕关键词,则无法识别。4.使用预先设定的过滤参数,过滤参数不能根据不断变化的广告帖自动变化,即使出现过多误判,也只能人工对参数更新,而不能自我学习,无法适应广告帖发展趋势。5.只是使用预订参数自动过滤,对人工操作没有给予考虑当一些经过过滤系统过滤认为并不存在问题的帖子,可能由于其他规则被人工操作删除后,由于不会学习人工操作,下次系统遇到相似的帖子仍然不会过滤。针对现有技术的种种不足,本专利技术嵌入到互动产品用户生成内容管理后台,根据内容及用户行为过滤广告帖内容。需要解决如下问题1.根据内容特点识别及过滤广告帖等不良内容;2.结合用户历史及内容历史提高识别准确度;3.分析每次人工操作,并在后续过滤中发挥作用;4.自动对比机器与人工操作结果,自动调整参数。
技术实现思路
本专利技术所要解决的技术问题在于提供一种,可以对广告帖等不良信息进行自动过滤。为实现上述的专利技术目的,本专利技术采用下述的技术方案一种针对文本特征的广告过滤系统,其特征在于所述广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库; 指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品;人工操作输入接口用于接收并解析人工修改过滤结果的操作;机器学习模块利用每次分析的结果以及人工操作记录进行学习,并根据学习更新决策计算模块。所述内容输入接口包括数据输入接口,校验输入的用户生成内容数据的数据格式以及完整性;解析器,解析输入的用户生成内容数据,获得ID、标题、内容、用户ID、发布时间等信息。所述特征分析模块包括分词器、相似度分析模块、文本内容分类模块、联系方式分析模块以及用户分析模块。所述分词器使用汉语词法分析系统对用户生成内容中的文本内容进行分词;所述相似度分析模块对分词后的词进行分析,得到与当前内容相似的内容发布次数, 并根据人工操作记录或相似发布次数得到当前用户生成内容可能为广告的相似度特征值。所述文本内容分类模块使用分词后的词在文本分类特征词集合进行映射得到词向量,使用支持向量机对词向量进行分类,得出的删除概率作为文本内容分类模块特征值。所述联系方式分析模块用于提取解析后的用户生成内容数据中可能存在的联系方式,并对该联系方式进行分析,得到与当前联系方式相同的联系方式发布过多少次,并根据人工操作记录或联系方式发布次数得到当前用户生成内容可能为广告的联系方式特征值。所述用户分析模块从用户库中查询用户发文记录,根据用户发帖被删除和通过次数进行计算用户特征值。所述信息库具有联系方式库、用户库、文章库以及相似度倒排索引,其中联系方式库用于存储联系方式内容、联系方式种类、联系方式出现次数以及广告过滤通过和删除次数;用户库用于存储用户ID和上次发帖时间;图片特征库用于存储图片特征、图片出现次数以及广告过滤通过和删除次数;所述决策计算模块根据相似度分析模块、文本内容分类模块、联系方式分析模块、以及用户分析模块产生的特征值生成一个多维特征向量,并经由神经网络进行分类,确定输入的用户生成内容是否为广告帖。所述机器学习模块通过对特征数据和分类数据的分析,使用反向传播算法对降噪后的数据进行机器学习,找到最优的决策神经网络,并对当前神经网络进行更新;所述机器学习模块还通过对词和分类数据的分析,使用X2统计选择文本分类特征词, 并更新文本分类特征词库。一种针对文本特征的广告过滤方法,基于上述广告过滤系统实现,其特征在于包括如下的步骤a.接收用户生成内容;b.对用户生成内容进行解析;c.分析用户生成内容,并提取用户生成内容的多种特征;d.根据多种特征分别得到用户内容可能为广告的多个特征值;e.根据多个特征值生成一个多维特征向量;f.利用多维特征向量对用户生产数据进行神经网络分类,确定输入的用户生成内容是否为广告帖;g.更新信息库;h.输出显示或屏蔽操作指令至互动产品;i.可接收人工操作结果,并提升之后的过滤效果;j.定时对每次分析和过滤的结果以及人工操作记录进行学习,并根据学习更新神经网络分类方法和更新文本分类特征词集合。所述步骤c中提取用户生成内容的多种特征具体包括提取相似度特征,用于分析与当前内容相似的内容发布次数并结合人工操作记录来获得相似度特征;提取文本分类特征,用于分析用户生成内容文字特点,使用支持向量机进行分类,得出删除概率,从而获得文本分类特征;提取联系方式特征,用于提取用户生成内容数据中可能存在的联系方式,并对该联系方式进行分析,得到与当前联系方式相同的联系方式发布过多少次并结合人工操作记录来获得联系方式特征;提取用户特征,根据用户发帖被删除和通过次数并结合人工操作记录来获得用户特征。所述步骤d中得到用户内容可能为广告的多个特征值包括相似度特征值、文本分类特征值联系方式特征值和用户特征值。所述步骤f使用人工神经网络分类算法对步骤e生成的特征向量进行分类。所述步骤g中更新信息库包括更新联系方式库、URL库、用户库、文章库以及相似度倒排索引、图片特征库,其中更新联系方式库更新联系方式内容、联系方式种类以及联系方式出现次数还有人工操作通过和删除次数;更新用户库更新用户ID和上次发帖时间还有人工操作通过和删除次数;更新文章库更新文章ID和广告过滤通过/删除次数还有人工操作通过和删除次数; 更新相似度倒排索引。所述步骤j中对每次分析和过滤的结果进行学习包括加载特征数据和分类数据,依据文本ID合并特征数据及分类数据,降噪后使用反向传播算法对降噪后的数据进本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:吴华鹏曾明刘宇史金城
申请(专利权)人:凤凰在线北京信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术