报文过滤方法与装置制造方法及图纸

技术编号:8657623 阅读:195 留言:0更新日期:2013-05-02 01:34
本发明专利技术提供了一种报文过滤方法与装置,其中,报文过滤方法包括:使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文;判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配;若不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码;根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤。通过本发明专利技术,有效提高了报文过滤的准确率。

【技术实现步骤摘要】

本专利技术涉及网络
,特别是涉及一种报文过滤方法与装置
技术介绍
垃圾报文过滤是互联网技术中一项重要的工作,一般是通过某种规则或遵循某种统计规律,将明显非正常用户访问报文的部分过滤掉,从而减少互联网的传输压力和存储压力,也减少了后期提取、识别用户报文的系统压力。通过垃圾报文过滤,可以有效提高分析用户报文效率,尤其在计算能力成为一种资源的互联网时代,对垃圾报文的过滤比率和质量,影响着下游数据处理的效率和质量。现有的垃圾报文过滤主要采用网页自动分类技术,网页自动分类技术提取网页文本内容和标签信息,并赋予不同的权重因子,其核心是利用自动文本分类技术实现。实现自动文本分类的关键阶段可划分为主要的三个部分:特征选取策略、分类算法和阈值策略,通过这样的自动文本分类过滤掉垃圾报文。但是,目前的自动文本分类技术对文档表示特征稀疏或模糊的文本分类,显得力不从心。尤其是短文本,有效文本特征的提取较少,而且容易产生诸如广告、推荐信息、版权声明等和内容无关的噪声信息,更容易引起误分类。此外,自动文本分类对大文本的处理,特征项空间的文书过高,数量过大的特征项,会导致无法准确提取代表文本的唯一主题有效特征信息,造成分类效果不佳,容易出现多峰分布等问题。可见,现有的自动文本分类技术的报文过滤准确性不高,无法有效过滤出垃圾报文。
技术实现思路
本专利技术提供了一种报文过滤方法与装置,以解决现有的自动文本分类技术的报文过滤准确性不高,无法有效过滤出垃圾报文的问题。为了解决上述问题,本专利技术公开了一种报文过滤方法,包括:使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文;判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配;若不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码;根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤。优选地,所述判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配的步骤包括:判断过滤后的所述报文的页面浏览PV量是否大于第一设定阈值;对过滤后的所述报文中,PV量大于所述第一设定阈值的报文进行所述是否与黑名单或白名单中的报文相匹配的判断。优选地,所述获取不匹配的报文对应的文本信息和/或网页状态码的步骤包括:获取所述不匹配的报文的统一资源定位符URL,对其进行去除重复和打乱顺序处理;对所述处理后的URL进行网页爬取,获得所述处理后的URL对应的网页源码和/或网页状态码;若获得到所述处理后的URL对应的网页源码,则对所述网页源码进行语法分析,获取所述处理后的URL对应的文本信息。优选地,所述根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤的步骤包括:若所述网页状态码为非正常页面返回码,则过滤掉所述网页状态码对应的报文,并将所述报文加入所述黑名单;若根据所述文本信息确定所述URL对应的网页正文的字符数少于第二设定阈值、和/或所述网页正文无标题、和/或所述网页正文无文档属性信息,则过滤掉所述文本信息对应的报文,并将所述报文加入所述黑名单。优选地,所述报文过滤方法还包括:若判断过滤后的所述报文与所述黑名单中的报文匹配,则过滤掉匹配的所述报文;若判断过滤后的所述报文与所述白名单中的报文匹配,则对匹配的所述报文放行。优选地,所述使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文的步骤包括:根据报文的URL使用第一过滤规则对报文进行过滤,过滤掉所述报文中URL与设定格式的URL相匹配的报文。为了解决上述问题,本专利技术公开了一种报文过滤装置,包括:第一过滤模块,用于使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文;判断模块,用于判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配;获取模块,用于若所述判断模块的判断结果为不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码;第二过滤模块,用于根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤。优选地,所述判断模块,用于判断过滤后的所述报文的页面浏览PV量是否大于第一设定阈值;对过滤后的所述报文中,PV量大于所述第一设定阈值的报文进行所述是否与黑名单或白名单中的报文相匹配的判断。优选地,所述获取模块,用于若所述判断模块的判断结果为不匹配,则获取所述不匹配的报文的统一资源定位符URL,对其进行去除重复和打乱顺序处理;对所述处理后的URL进行网页爬取,获得所述处理后的URL对应的网页源码和/或网页状态码;若获得到所述处理后的URL对应的网页源码,则对所述网页源码进行语法分析,获取所述处理后的URL对应的文本信息。优选地,所述第二过滤模块,用于若所述网页状态码为非正常页面返回码,则过滤掉所述网页状态码对应的报文,并将所述报文加入所述黑名单;若根据所述文本信息确定所述URL对应的网页正文的字符数少于第二设定阈值、和/或所述网页正文无标题、和/或所述网页正文无文档属性信息,则过滤掉所述文本信息对应的报文,并将所述报文加入所述黑名单。与现有技术相比,本专利技术具有以下优点:本专利技术首先使用第一过滤规则对报文进行初步过滤,过滤掉设定格式的报文;然后,再对进行了初步过滤后的报文进行黑白名单匹配;对于不匹配的报文获取相应的文本信息和/或网页状态码,进而根据这些文本信息和/或网页状态码对报文进行进一步过滤。一方面,通过初步过滤和黑白名单匹配,大大减少了需要再次过滤的报文数量,以便于准确提取报文的有效特征信息,提高报文过滤准确率;另一方面,本领域技术人员可以根据实际需求设置第一过滤规则过滤掉的报文的报文格式,以有效减少报文过滤时的噪声信息,进而提高报文过滤准确率。可见,通过本专利技术,解决了现有的自动文本分类技术的报文过滤准确性不高,无法有效过滤出垃圾报文的问题,有效提高了报文过滤的准确率。附图说明图1是根据本专利技术实施例一的一种报文过滤方法的步骤流程图;图2是根据本专利技术实施例二的一种报文过滤方法的步骤流程图;图3是根据本专利技术实施例三的一种报文过滤方法的步骤流程图;图4是根据本专利技术实施例四的一种报文过滤装置的结构框图。具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。实施例一参照图1,示出了根据本专利技术实施例一的一种报文过滤方法的步骤流程图。本实施例的报文过滤方法包括以下步骤:步骤S102:使用第一过滤规则对报文进行过滤,过滤掉报文中符合设定格式的报文。通过对垃圾报文进行分析可知,很多垃圾报文可以通过一定的格式识别,如通过URL后缀识别等,本领域技术人员可以通过在第一过滤规则中设置待过滤的垃圾报文格式,将一部分垃圾报文过滤掉。如,将第一过滤规则设置为根据报文的URL (Uniform Resource Locator,统一资源定位符)后缀过滤非文本格式的URL的规则,则使用该规则对报文进行过滤时,会将非文本格式URL的报文过滤掉。当然,不限于此,本领域技术人员在实际应用中可以根据实际需要进行适当设置,以将明显的垃圾报文初步过滤掉,减少后续报文过滤量。步骤S104:判断过滤后的报文是否与黑名单或白名单中的报文相匹配。其中,黑白名单分别为将网页判定为正常报文和非正常报文的列表,黑名单为非正常报文,即非正常用户访问的垃圾报文,一般为用户本文档来自技高网...

【技术保护点】
一种报文过滤方法,其特征在于,包括:使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文;判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配;若不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码;根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤。

【技术特征摘要】
1.一种报文过滤方法,其特征在于,包括: 使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文; 判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配; 若不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码; 根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤。2.根据权利要求1所述的方法,其特征在于,所述判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配的步骤包括: 判断过滤后的所述报文的页面浏览PV量是否大于第一设定阈值; 对过滤后的所述报文中,PV量大于所述第一设定阈值的报文进行所述是否与黑名单或白名单中的报文相匹配的判断。3.根据权利要求1或2所述的方法,其特征在于,所述获取不匹配的报文对应的文本信息和/或网页状态码的步骤包括: 获取所述不匹配的报文的统一资源定位符URL,对其进行去除重复和打乱顺序处理; 对所述处理后的URL进行网页爬取,获得所述处理后的URL对应的网页源码和/或网页状态码; 若获得到所述处理后的URL对应的网页源码,则对所述网页源码进行语法分析,获取所述处理后的URL对应的文本信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤的步骤包括: 若所述网页状态码为非正常页面返回码,则过滤掉所述网页状态码对应的报文,并将所述报文加入所述黑名单; 若根据所述文本信息确定所述URL对应的网页正文的字符数少于第二设定阈值、和/或所述网页正文无标题、和/或所述网页正文无文档属性信息,则过滤掉所述文本信息对应的报文,并将所述报文加入所述黑名单。5.根据权利要求1所述的方法,其特征在于,还包括: 若判断过滤后的所述报文与所述黑名单中的报文匹配,则过滤掉匹配的所述报文; 若判断过滤后的所述报文与所述白名单中的报文匹配,则对匹配...

【专利技术属性】
技术研发人员:罗峰黄苏支李娜
申请(专利权)人:北京亿赞普网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1