The embodiment of the invention provides a method and a device for detecting the type of Web site, the method comprises: according to the detected website address to access the site to be detected at least two pages; access to the at least two pages corresponding to the page code; extracting feature information from the web page code, as the basic the characteristics of information; according to the basic characteristics of information acquisition of the at least two pages with the preset template matching, as the first match; if the first matching degree is greater than a preset threshold, determining the detection site belongs to the preset template corresponding to the type of site. It can be seen that the application embodiment provides a way to automatically detect the type of the site, thereby reducing the workload and improving the detection efficiency. Moreover, since the implementation of the application is no longer dependent on the experiential value of the inspector, and based on the detection of at least two pages of the website to be detected, it can effectively improve the accuracy of the detection result.
【技术实现步骤摘要】
一种网站类型的检测方法及装置
本申请涉及互联网
,尤其是涉及一种网站类型的检测方法及装置。
技术介绍
随着互联网技术的发展,在很多场景下都需要对网站类型进行检测。例如,通过检测网站类型判断网站的安全性;又例如,对于工信部备案的网站时,需要检测该网站的类型,确定该类型与备案时上报的类型是否一致。目前在检测网站的类型时,通常由检测人员根据网站显示的内容,人工确定网站的类型。显然,这种方式造成了较大的工作量,导致检测效率较低。因此,如何实现对网站类型的自动检测,是目前亟待解决的问题。
技术实现思路
本申请解决的技术问题在于提供一种网站类型的检测方法及装置,以实现能够自动检测网站类型,从而减少工作量并提高检测效率。为此,本申请解决技术问题的技术方案是:本申请提供了一种网站类型的检测方法,包括:根据待检测网站的地址访问所述待检测网站的至少两级页面;获取所述至少两级页面对应的网页代码;从所述网页代码中提取特征信息,作为基本特征信息;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。可选的,所述检测方法还包括:若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型,或者根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。可选的,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型,包括:访问所述至少两级页面的下一级页面;获取所述下一级页面对应的网页代码;从所述下一级页面对应的网页代码中提取特征信息,作为所述 ...
【技术保护点】
一种网站类型的检测方法,其特征在于,包括:根据待检测网站的地址访问所述待检测网站的至少两级页面;获取所述至少两级页面对应的网页代码;从所述网页代码中提取特征信息,作为基本特征信息;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。
【技术特征摘要】
1.一种网站类型的检测方法,其特征在于,包括:根据待检测网站的地址访问所述待检测网站的至少两级页面;获取所述至少两级页面对应的网页代码;从所述网页代码中提取特征信息,作为基本特征信息;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,作为第一匹配度;若所述第一匹配度大于预设阈值,确定所述待检测网站属于所述预设模板对应的网站类型。2.根据权利要求1所述的检测方法,其特征在于,所述检测方法还包括:若所述第一匹配度小于所述预设阈值,确定所述待检测网站不属于所述网站类型,或者根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型。3.根据权利要求2所述的检测方法,其特征在于,根据所述基本特征信息和附加特征信息确定所述待检测网站是否属于所述网站类型,包括:访问所述至少两级页面的下一级页面;获取所述下一级页面对应的网页代码;从所述下一级页面对应的网页代码中提取特征信息,作为所述附加特征信息;根据所述基本特征信息和所述附加特征信息获取至少三级页面与所述预设模板的匹配度,作为第二匹配度;所述至少三级页面包括所述至少两级页面和所述至少两级页面的下一级页面;根据所述第二匹配度与所述预设阈值的比较结果,确定所述待检测网站是否属于所述网站类型。4.根据权利要求1所述的检测方法,其特征在于,所述预设模板包括至少一个模块,各个模块具有对应的匹配特征信息和权值;根据所述基本特征信息获取所述至少两级页面与预设模板的匹配度,包括:根据所述基本特征信息和各个模块对应的匹配特征信息,确定出与所述至少两级页面匹配的N个模块,N≥0;根据所述N个模块分别对应的权值,获得所述至少两级页面与所述预设模板的匹配度。5.根据权利要求1所述的检测方法,其特征在于,所述检测方法还包括:获取属于所述网站类型的网站对应的特征信息,作为反馈特征信息;根据所述反馈特征信息,调整所述预设模板。6.根据权利要求1所述的检测方法,其特征在于,所述至少两级页面包括一级页面和二级页面,根据待检测网站的地址访问所述待检测网站的至少两级页面包括:根据所述待检测网站的一级页面地址访问所述待检测网站的一级页面;获取所述一级页面的网页代码,从所述一级页面的网页代码中获取二级页面的地址;根据所述二级页面的地址访问所述二级页面。7.根据权利要求1所述的检测方法,其特征在于,所述基本特征信息包括页面元素的标识和/或内容。8.根据权利要求1所述的检测方法,其特征在于,访问所述待检测网站的至少两级页面时,所述检测方法还包括:模拟登录和/或模拟操作所述待检测网站。9.根据权利要求1至8任一项所述的检测方法,其特征在于,所述网站类型为电子商务类,所述预设模板为所述电子商务类对应的模板。10.一种网站类型的检测装置,其特征在于,包括:访问单元,用于根据待检测网站的地址访问所述待检测网站的至少两级页面;第一获取单元,用于获取所述...
【专利技术属性】
技术研发人员:赵燕雷,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。