一种判断html网页为非文本类型的方法技术

技术编号：9694809 阅读：178 留言：0更新日期：2014-02-21 01:14

本发明专利技术公开了一种判断html网页为非文本类型的方法，该方法通过下载URL对应的网页，判断该网页的编码，转换成对应的编码网页，与特征库进行对比，判断网页中是否出现了特征库中的乱码特征字符，若出现了就判定为非文本类型，否则再判断是否出现了连续的乱码字符，若出现了判断为非文本类型，否则为文本类型。通过本发明专利技术方法能够智能的识别网页的编码，并识别出是否为非文本类型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机网络数据
，尤其涉及。
技术介绍
要识别网页是否为非文本类型，仅仅从链接的后缀进行区分，是无法做到稳定识别的。必须分析该网页的内容，分析其内容是否含有不可识别的字符，也就是俗称乱码的内容。专利技术专利ZL200810180824.6公开了一种同话题定位跟踪式论坛爬虫系统，通过分析URL链接名称中是否包含一些非文本类型的后缀,如wav, jpg, ocx等,来分析该链接是否为非文本类型的网页。该专利技术的关注点为URL的名称，而非URL对应网页的内容，只是简单通过分析URL链接的名字，来确定网页是否为非文本类型，具有较大的误差。
技术实现思路
本专利技术的目的是为了克服现有技术的缺陷，提供，该方法包括以下步骤:St印1:下载URL对应的网页；Step2:判断该网页的编码，转换成对应的编码网页；Step3:与特征库进行对比，判断网页中是否出现了特征库中的乱码特征字符，若出现乱码特征字符就判定为非文本类型，否则再判断是否出现了连续的乱码字符，若出现连续的乱码字符就判定为非文本类型，否则为文本类型。本专利技术技术方案带来的有益效果:本专利技术技术方案通过使用特征库匹配、连续乱码字符段匹配等手段，识别网页的正确编码，并进行自动转码，即使网页中未包含编码说明，仍能正常识别网页的编码是否为非文本类型，识别率高且稳定。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不...

【技术保护点】
一种判断html网页为非文本类型的方法，其特征在于，该方法包括以下步骤：Step1：下载URL对应的网页；Step2：判断该网页的编码，转换成对应的编码网页；Step3：与特征库进行对比，判断网页中是否出现了特征库中的乱码特征字符，若出现乱码特征字符就判定为非文本类型，否则再判断是否出现了连续的乱码字符，若出现连续的乱码字符就判定为非文本类型，否则为文本类型。

【技术特征摘要】
1.一种判断html网页为非文本类型的方法，其特征在于，该方法包括以下步骤: Stepl:下载URL对应的网页； Step2:判断该网页的编码，转换成对应的编码网页； Step3:与特征库进行对比，判断网页中是否出现了特征库中的乱码特征字符，若出现乱码特征字符就判定为非文本类型，否则再判断是否出现了连续的乱码字符，若出现连续...

【专利技术属性】
技术研发人员：杨育斌，柯宗贵，李佳，
申请(专利权)人：蓝盾信息安全技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人