一种判断html网页为非文本类型的方法技术

技术编号:9694809 阅读:178 留言:0更新日期:2014-02-21 01:14
本发明专利技术公开了一种判断html网页为非文本类型的方法,该方法通过下载URL对应的网页,判断该网页的编码,转换成对应的编码网页,与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现了就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现了判断为非文本类型,否则为文本类型。通过本发明专利技术方法能够智能的识别网页的编码,并识别出是否为非文本类型。

【技术实现步骤摘要】

本专利技术涉及计算机网络数据
,尤其涉及。
技术介绍
要识别网页是否为非文本类型,仅仅从链接的后缀进行区分,是无法做到稳定识别的。必须分析该网页的内容,分析其内容是否含有不可识别的字符,也就是俗称乱码的内容。专利技术专利ZL200810180824.6公开了一种同话题定位跟踪式论坛爬虫系统,通过分析URL链接名称中是否包含一些非文本类型的后缀,如wav, jpg, ocx等,来分析该链接是否为非文本类型的网页。该专利技术的关注点为URL的名称,而非URL对应网页的内容,只是简单通过分析URL链接的名字,来确定网页是否为非文本类型,具有较大的误差。
技术实现思路
本专利技术的目的是为了克服现有技术的缺陷,提供,该方法包括以下步骤:St印1:下载URL对应的网页;Step2:判断该网页的编码,转换成对应的编码网页;Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续的乱码字符就判定为非文本类型,否则为文本类型。本专利技术技术方案带来的有益效果:本专利技术技术方案通过使用特征库匹配、连续乱码字符段匹配等手段,识别网页的正确编码,并进行自动转码,即使网页中未包含编码说明,仍能正常识别网页的编码是否为非文本类型,识别率高且稳定。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术的的流程图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在对web业务系统进行流程监控及分析时,需要分析的内容通常都是网页中的文本内容,因此需要智能的对非文本内容的网页进行识别。通过本专利技术的,能够自动、无人值守的识别WEB网站中的非文本类型的网页、URL链接,如图片、音乐、FLASH文件、二进制文件等。本专利技术的主要创新点在于通过内容分析及非文本字符特征库,能够智能的识别网页的编码,并识别出是否为非文本类型。如图1所示为本专利技术的方法流程图,具体步骤为:St印1:下载URL对应的网页;Step2:判断该网页的编码,转换成对应的编码网页;Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续的乱码字符就判定为非文本类型,否则为文本类型。本专利技术方法能够识别网页的正确编码,并进行自动转码,即使网页中未包含编码说明,如charset=utf_8等,仍可正常识别网页的编码。本专利技术还收集了常见的乱码特征符,能够快速的识别网页是否为非文本类型。本专利技术即使出现生僻字符,只要不是连续出现,也不会被识别为非文本,避免了因网页偶然出现的生僻字而影响识别率。以上对本专利技术实施例所提供的进行了详细介绍,本文中应用了具体个例对本专利技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本专利技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本专利技术的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本专利技术的限制。本文档来自技高网...

【技术保护点】
一种判断html网页为非文本类型的方法,其特征在于,该方法包括以下步骤:Step1:下载URL对应的网页;Step2:判断该网页的编码,转换成对应的编码网页;Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续的乱码字符就判定为非文本类型,否则为文本类型。

【技术特征摘要】
1.一种判断html网页为非文本类型的方法,其特征在于,该方法包括以下步骤: Stepl:下载URL对应的网页; Step2:判断该网页的编码,转换成对应的编码网页; Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续...

【专利技术属性】
技术研发人员:杨育斌柯宗贵李佳
申请(专利权)人:蓝盾信息安全技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1