一种网站类型的检测方法及装置制造方法及图纸

技术编号:16717959 阅读:39 留言:0更新日期:2017-12-05 16:24
本申请实施例提供了一种网站类型的检测方法及装置,所述方法包括:根据待检测网站的地址访问所述待检测网站的至少两级页面;获取所述至少两级页面对应的网页代码;从所述网页代码中提取特征信息,作为基本特征信息;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。可见,本申请实施例提供了一种自动检测网站类型的方式,从而减少工作量并提高检测效率。而且,由于本申请实施例中不再依赖于检测人员的经验值,而且根据待检测网站的至少两级页面进行检测,能够有效地提高检测结果的准确率。

A method and device for detecting site type

The embodiment of the invention provides a method and a device for detecting the type of Web site, the method comprises: according to the detected website address to access the site to be detected at least two pages; access to the at least two pages corresponding to the page code; extracting feature information from the web page code, as the basic the characteristics of information; according to the basic characteristics of information acquisition of the at least two pages with the preset template matching, as the first match; if the first matching degree is greater than a preset threshold, determining the detection site belongs to the preset template corresponding to the type of site. It can be seen that the application embodiment provides a way to automatically detect the type of the site, thereby reducing the workload and improving the detection efficiency. Moreover, since the implementation of the application is no longer dependent on the experiential value of the inspector, and based on the detection of at least two pages of the website to be detected, it can effectively improve the accuracy of the detection result.

【技术实现步骤摘要】
一种网站类型的检测方法及装置
本申请涉及互联网
,尤其是涉及一种网站类型的检测方法及装置。
技术介绍
随着互联网技术的发展,在很多场景下都需要对网站类型进行检测。例如,通过检测网站类型判断网站的安全性;又例如,对于工信部备案的网站时,需要检测该网站的类型,确定该类型与备案时上报的类型是否一致。目前在检测网站的类型时,通常由检测人员根据网站显示的内容,人工确定网站的类型。显然,这种方式造成了较大的工作量,导致检测效率较低。因此,如何实现对网站类型的自动检测,是目前亟待解决的问题。
技术实现思路
本申请解决的技术问题在于提供一种网站类型的检测方法及装置,以实现能够自动检测网站类型,从而减少工作量并提高检测效率。为此,本申请解决技术问题的技术方案是:本申请提供了一种网站类型的检测方法,包括:根据待检测网站的地址访问所述待检测网站的至少两级页面;获取所述至少两级页面对应的网页代码;从所述网页代码中提取特征信息,作为基本特征信息;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。可选的,所述检测方法还包括:若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型,或者根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。可选的,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型,包括:访问所述至少两级页面的下一级页面;获取所述下一级页面对应的网页代码;从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。可选的,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,包括:根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。可选的,所述检测方法还包括:获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;根据所述反馈特征信息,调整所述预设模板。可选的,所述至少两级页面包括一级页面和二级页面,根据待检测网站的地址访问所述待检测网站的至少两级页面包括:根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;根据所述二级页面的地址访问所述二级页面。可选的,所述基本特征信息包括页面元素的标识和/或内容。可选的,访问所述待检测网站的至少两级页面时,所述检测方法还包括:模拟登录和/或模拟操作所述待检测网站。可选的,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。本申请还提供了一种网站类型的检测装置,包括:访问单元,用于根据待检测网站的地址访问所述待检测网站的至少两级页面;第一获取单元,用于获取所述至少两级页面对应的网页代码;提取单元,用于从所述网页代码中提取特征信息,作为基本特征信息;第二获取单元,用于根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;第一确定单元,用于若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。可选的,还包括第二确定单元或者第三确定单元;所述第二确定单元用于,若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型;所述第三确定单元用于,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。可选的,所述第三确定单元包括:第一访问子单元,用于访问所述至少两级页面的下一级页面;第一获取子单元,用于获取所述下一级页面对应的网页代码;提取子单元,用于从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;第二获取子单元,用于根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;第一确定子单元,用于根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。可选的,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;所述第二获取模块包括:第二确定子单元,用于根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;第三获取子单元,用于根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。可选的,还包括:第三获取单元,用于获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;调整单元,用于根据所述反馈特征信息,调整所述预设模板。可选的,所述至少两级页面包括一级页面和二级页面;所述访问单元包括:第二访问子单元,用于根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;第四获取子单元,用于获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;第三访问子单元,用于根据所述二级页面的地址访问所述二级页面。可选的,所述基本特征信息包括页面元素的标识和/或内容。可选的,还包括:模拟登陆单元和/或模拟操作单元;所述模拟登陆单元,用于模拟登录所述待检测网站;所述模拟操作单元,用于模拟操作所述待检测网站。可选的,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。通过上述技术方案可知,本申请实施例中,通过自动访问待检测网站的至少两级页面,能够获取所述至少两级页面对应的网页代码,根据从网页代码提取出的特征信息,能够获取所述至少两级页面与预设模板对应的匹配度,由于预设模板对应一网站类型,因此若该匹配度大于预设阈值,则说明所述待检测网站属于该网站类型。可见,本申请实施例提供了一种自动检测网站类型的方式,从而减少工作量并提高检测效率。而且,由于本申请实施例中不再依赖于检测人员的经验值,而且根据待检测网站的至少两级页面进行检测,能够有效地提高检测结果的准确率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。图1为本申请提供的一种方法实施例的流程示意图;图2为本申请提供的另一种方法实施例的流程示意图;图3为本申请提供的一级页面上部的示意图;图4为本申请提供的一级页面下部的示意图;图5为本申请提供的二级页面的示意图;图6为本申请提供的三级页面的示意图;图7为本申请提供的一种装置实施例的结构示意图。具体实施方式在很多场景下都需要对网站类型进行检测。例如,在工信部备案网站时必须上报网站类型。然而,目前很多上报的网站类型往往与实际的网站类型不一致,因此需要由检测人员根据网站的地址访问该网站,根据网站的一级页面本文档来自技高网...
一种网站类型的检测方法及装置

【技术保护点】
一种网站类型的检测方法,其特征在于,包括:根据待检测网站的地址访问所述待检测网站的至少两级页面;获取所述至少两级页面对应的网页代码;从所述网页代码中提取特征信息,作为基本特征信息;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。

【技术特征摘要】
1.一种网站类型的检测方法,其特征在于,包括:根据待检测网站的地址访问所述待检测网站的至少两级页面;获取所述至少两级页面对应的网页代码;从所述网页代码中提取特征信息,作为基本特征信息;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。2.根据权利要求1所述的检测方法,其特征在于,所述检测方法还包括:若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型,或者根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。3.根据权利要求2所述的检测方法,其特征在于,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型,包括:访问所述至少两级页面的下一级页面;获取所述下一级页面对应的网页代码;从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。4.根据权利要求1所述的检测方法,其特征在于,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,包括:根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。5.根据权利要求1所述的检测方法,其特征在于,所述检测方法还包括:获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;根据所述反馈特征信息,调整所述预设模板。6.根据权利要求1所述的检测方法,其特征在于,所述至少两级页面包括一级页面和二级页面,根据待检测网站的地址访问所述待检测网站的至少两级页面包括:根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;根据所述二级页面的地址访问所述二级页面。7.根据权利要求1所述的检测方法,其特征在于,所述基本特征信息包括页面元素的标识和/或内容。8.根据权利要求1所述的检测方法,其特征在于,访问所述待检测网站的至少两级页面时,所述检测方法还包括:模拟登录和/或模拟操作所述待检测网站。9.根据权利要求1至8任一项所述的检测方法,其特征在于,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。10.一种网站类型的检测装置,其特征在于,包括:访问单元,用于根据待检测网站的地址访问所述待检测网站的至少两级页面;第一获取单元,用于获取所述...

【专利技术属性】
技术研发人员:赵燕雷
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1