【技术实现步骤摘要】
本专利技术涉及计算机网络数据
,尤其涉及。
技术介绍
要识别网页是否为非文本类型,仅仅从链接的后缀进行区分,是无法做到稳定识别的。必须分析该网页的内容,分析其内容是否含有不可识别的字符,也就是俗称乱码的内容。专利技术专利ZL200810180824.6公开了一种同话题定位跟踪式论坛爬虫系统,通过分析URL链接名称中是否包含一些非文本类型的后缀,如wav, jpg, ocx等,来分析该链接是否为非文本类型的网页。该专利技术的关注点为URL的名称,而非URL对应网页的内容,只是简单通过分析URL链接的名字,来确定网页是否为非文本类型,具有较大的误差。
技术实现思路
本专利技术的目的是为了克服现有技术的缺陷,提供,该方法包括以下步骤:St印1:下载URL对应的网页;Step2:判断该网页的编码,转换成对应的编码网页;Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续的乱码字符就判定为非文本类型,否则为文本类型。本专利技术技术方案带来的有益效果:本专利技术技术方案通过使用特征库匹配、连续乱码字符段匹配等手段,识别网页的正确编码,并进行自动转码,即使网页中未包含编码说明,仍能正常识别网页的编码是否为非文本类型,识别率高且稳定。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不 ...
【技术保护点】
一种判断html网页为非文本类型的方法,其特征在于,该方法包括以下步骤:Step1:下载URL对应的网页;Step2:判断该网页的编码,转换成对应的编码网页;Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续的乱码字符就判定为非文本类型,否则为文本类型。
【技术特征摘要】
1.一种判断html网页为非文本类型的方法,其特征在于,该方法包括以下步骤: Stepl:下载URL对应的网页; Step2:判断该网页的编码,转换成对应的编码网页; Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续...
【专利技术属性】
技术研发人员:杨育斌,柯宗贵,李佳,
申请(专利权)人:蓝盾信息安全技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。