一种网页分类方法、装置及设备制造方法及图纸

技术编号:18497231 阅读:24 留言:0更新日期:2018-07-21 20:14
本发明专利技术实施例公开了一种网页分类方法、装置及设备,该方法包括:对目标网页进行网页分析,得到所述目标网页上的目标网页元素以及所述目标网页元素对应的网页数据;调用特征提取接口,对所述目标网页元素对应的网页数据进行特征提取,得到所述目标网页元素对应的特征;调用特征向量生成接口,根据提取到的所述目标网页元素对应的特征生成所述目标网页元素的特征向量;调用分类算法接口,根据各个目标网页元素的特征向量对所述目标网页进行分类,得到所述目标网页的分类结果。本发明专利技术在得到网页分析结果后,通过调用接口的方式,继续实现网页分类功能,最终得到网页分类结果,无需先后触发调度两套程序代码,提高了实现网页分类功能的自动化程度。

A method, device and equipment for web page classification

An embodiment of the invention discloses a web page classification method, device and device. The method includes: Web page analysis of the target page, the target page element on the target page and the page data corresponding to the target page element, and the feature extraction interface and the homepage of the target page element. The feature vectors are extracted and the features of the elements corresponding to the target page are obtained. The feature vector is called to generate the feature vector of the target page element according to the features extracted from the target page element. The web pages are classified and the classification results of the target web pages are obtained. After getting the results of the web page analysis, the web page classification function is continued by the way of calling the interface, and the results of the web page classification are finally obtained. It does not need to trigger two sets of program code successively, and improves the automation of the web page classification function.

【技术实现步骤摘要】
一种网页分类方法、装置及设备
本专利技术涉及数据处理
,更具体地说,涉及一种网页分类方法、装置及设备。
技术介绍
随着网络的普及,基于网页的网络攻击和恶意行为不断增多,严重威胁用户的网络访问安全。常见的恶意网站行为包括修改主页、挂马、钓鱼、自动弹出、恶意跳转等,研究人员通过分析以上恶意网站的行为特征,进一步利用机器学习的方法对网页进行分类方面的研究,例如利用已训练好的分类模型对网页进行分类,从而识别并阻断恶意网页。在对网页进行分类方面的研究,需要预先对网页进行分析,以提取网页中的特定内容,然后利用提取的特定内容进行分类研究。例如,若要利用已训练好的分类模型对目标网页进行分类,需要先对目标网页进行分析,以提取目标网页中的特定内容,待目标网页分析完成后,利用已训练好的分类模型对提取的特定内容进行分类研究,最终得到目标网页的分类结果。然而,现有技术中,实现上述网页分析的过程以及根据网页分析得到的特定内容进行网页分类的过程是通过相互独立的程序代码实现的,当需要对目标网页进行分类方面的研究时,需要先调度网页分析的程序代码对目标网页进行分析,得到网页分析结果后,再调度网页分类过程的程序代码对网页分析结果进行分类方面的处理。可见,为了实现对网页进行分类的功能不得不先后触发调度两套相互独立的程序代码,显然实现过程复杂,自动化程度低。
技术实现思路
有鉴于此,本专利技术提供一种网页分类方法、装置以及设备。为实现上述目的,第一方面,本专利技术提供了一种网页分类方法,所述方法包括:对目标网页进行网页分析,得到所述目标网页上的目标网页元素以及所述目标网页元素对应的网页数据;调用特征提取接口,对所述目标网页元素对应的网页数据进行特征提取,得到所述目标网页元素对应的特征;调用特征向量生成接口,根据提取到的所述目标网页元素对应的特征生成所述目标网页元素的特征向量;调用分类算法接口,根据各个目标网页元素的特征向量对所述目标网页进行分类,得到所述目标网页的分类结果。可选的,所述对目标网页进行网页分析,得到所述目标网页上的目标网页元素以及所述目标网页元素对应的网页数据,包括:将目标网页的网页数据与预设筛选条件进行匹配,将匹配成功的预设筛选条件确定为目标条件,并获得所述目标条件对应的网页数据;根据预设筛选条件与所述目标网页上的网页元素的对应关系,确定与所述目标条件对应的目标网页元素;根据与所述目标条件分别对应的网页数据和目标网页元素,确定所述目标网页上的目标网页元素对应的网页数据。可选的,所述预设筛选条件包括用于描述预设网页元素的正则表达式。可选的,在首次调用特征提取接口之前,还包括:对特征提取接口对应的函数进行初始化处理;和\或,在首次调用特征向量生成接口之前,还包括:对特征向量生成接口对应的函数进行初始化处理;和\或,在首次调用分类算法接口之前,还包括:对分类算法接口对应的函数进行初始化处理;其中,所述初始化处理包括参数配置和资源申请。可选的,所述得到所述目标网页的分类结果之后,还包括:对申请的资源进行释放。可选的,所述方法还包括:调用分类模型训练接口,利用各个目标网页元素的特征向量对预先建立的分类模型进行训练,得到已训练的分类模型;相应的,所述调用分类算法接口,根据各个目标网页元素的特征向量对所述目标网页进行分类,得到所述目标网页的分类结果,包括:调用分类算法接口,将各个目标网页元素的特征向量作为已训练的分类模型的输入参数,经过所述已训练的分类模型的处理后得到输出参数,作为所述目标网页的分类结果。第二方面,本专利技术还提供了一种网页分类装置,所述装置包括:网页分析模块,用于对目标网页进行网页分析,得到所述目标网页上的目标网页元素以及所述目标网页元素对应的网页数据;特征提取模块,用于调用特征提取接口,对所述目标网页元素对应的网页数据进行特征提取,得到所述目标网页元素对应的特征;向量生成模块,用于调用特征向量生成接口,根据提取到的所述目标网页元素对应的特征生成所述目标网页元素的特征向量;分类模块,用于调用分类算法接口,根据各个目标网页元素的特征向量对所述目标网页进行分类,得到所述目标网页的分类结果。可选的,所述网页分析模块,包括:匹配子模块,用于将目标网页的网页数据与预设筛选条件进行匹配,将匹配成功的预设筛选条件确定为目标条件,并获得所述目标条件对应的网页数据;第一确定子模块,用于根据预设筛选条件与所述目标网页上的网页元素的对应关系,确定与所述目标条件对应的目标网页元素;第二确定子模块,用于根据与所述目标条件分别对应的网页数据和目标网页元素,确定所述目标网页上的目标网页元素对应的网页数据。可选的,所述预设筛选条件包括用于描述预设网页元素的正则表达式。可选的,所述装置还包括:初始化模块,用于在首次调用特征提取接口之前,对特征提取接口对应的函数进行初始化处理;和\或,在首次调用特征向量生成接口之前,对特征向量生成接口对应的函数进行初始化处理;和\或,在首次调用分类算法接口之前,对分类算法接口对应的函数进行初始化处理;其中,所述初始化处理包括参数配置和资源申请。可选的,所述装置还包括:释放模块,用于在得到所述目标网页的分类结果之后,对申请的资源进行释放。可选的,所述装置还包括:模型训练模块,用于调用分类模型训练接口,利用各个目标网页元素的特征向量对预先建立的分类模型进行训练,得到已训练的分类模型;相应的,所述分类模块,具体用于:调用分类算法接口,将各个目标网页元素的特征向量作为已训练的分类模型的输入参数,经过所述已训练的分类模型的处理后得到输出参数,作为所述目标网页的分类结果。第三方面,本专利技术还提供了一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的网页分类方法。第四方面,本专利技术还提供了一种网页分类设备,所述设备包括存储器和处理器,所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于运行所述程序代码,其中,所述程序代码运行时执行上述的网页分类方法。本专利技术提供的网页分类方法中,首先对目标网页进行网页分析,以得到目标网页的目标网页元素以及各个目标网页元素对应的网页数据,作为网页分类的基础。其次,通过调用特征提取接口,对目标网页元素对应的网页数据进行特征提取,得到该目标网页元素对应的特征。再次,通过调用特征向量生成接口,根据提取到的目标网页元素对应的特征生成该目标网页元素的特征向量。最后,通过调用分类算法接口,根据各个目标网页元素的特征向量对目标网页进行分类,得到目标网页的分类结果。本专利技术在得到网页分析结果后,通过调用接口的方式,继续实现网页分类功能,最终得到网页分类结果。与现有技术相比,本专利技术无需先后触发调度两套相互独立的程序代码,提高了实现网页分类功能的自动化程度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的一种网页分类方法的流程图;图2为本专利技术实施例提供的一种网页分析方法的流程图;图3为本专利技术实施例提供的一种树结构本文档来自技高网...

【技术保护点】
1.一种网页分类方法,其特征在于,所述方法包括:对目标网页进行网页分析,得到所述目标网页上的目标网页元素以及所述目标网页元素对应的网页数据;调用特征提取接口,对所述目标网页元素对应的网页数据进行特征提取,得到所述目标网页元素对应的特征;调用特征向量生成接口,根据提取到的所述目标网页元素对应的特征生成所述目标网页元素的特征向量;调用分类算法接口,根据各个目标网页元素的特征向量对所述目标网页进行分类,得到所述目标网页的分类结果。

【技术特征摘要】
1.一种网页分类方法,其特征在于,所述方法包括:对目标网页进行网页分析,得到所述目标网页上的目标网页元素以及所述目标网页元素对应的网页数据;调用特征提取接口,对所述目标网页元素对应的网页数据进行特征提取,得到所述目标网页元素对应的特征;调用特征向量生成接口,根据提取到的所述目标网页元素对应的特征生成所述目标网页元素的特征向量;调用分类算法接口,根据各个目标网页元素的特征向量对所述目标网页进行分类,得到所述目标网页的分类结果。2.根据权利要求1所述的网页分类方法,其特征在于,所述对目标网页进行网页分析,得到所述目标网页上的目标网页元素以及所述目标网页元素对应的网页数据,包括:将目标网页的网页数据与预设筛选条件进行匹配,将匹配成功的预设筛选条件确定为目标条件,并获得所述目标条件对应的网页数据;根据预设筛选条件与所述目标网页上的网页元素的对应关系,确定与所述目标条件对应的目标网页元素;根据与所述目标条件分别对应的网页数据和目标网页元素,确定所述目标网页上的目标网页元素对应的网页数据。3.根据权利要求2所述的网页分类方法,其特征在于,所述预设筛选条件包括用于描述预设网页元素的正则表达式。4.根据权利要求1所述的网页分类方法,其特征在于,在首次调用特征提取接口之前,还包括:对特征提取接口对应的函数进行初始化处理;和\或,在首次调用特征向量生成接口之前,还包括:对特征向量生成接口对应的函数进行初始化处理;和\或,在首次调用分类算法接口之前,还包括:对分类算法接口对应的函数进行初始化处理;其中,所述初始化处理包括参数配置和资源申请。5.根据权利要求4所述的网页分类方法,其特征在于,所述得到所述目标网页的分类结果之后,还包括:对申请的资源进行释放。6.根据权利要求1所述的网页分类方法,其特征在于,所述方法还包括:调用分类模型训练接口,利用各个目标网页元素的特征向量对预先建立的分类模型进行训练,得到已训练...

【专利技术属性】
技术研发人员:邹荣珠
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1