网络爬虫的检测方法及装置制造方法及图纸

技术编号:21971508 阅读:43 留言:0更新日期:2019-08-28 01:29
本申请提供了一种网络爬虫的检测方法及装置,涉及互联网技术领域。该方法包括:接收客户端通过与服务器建立的待检测网络连接发送的第一访问请求;根据第一访问请求,在预设的多个第一网络属性维度下,获取与每个第一网络属性维度对应的第一特征值;根据多个第一特征值,生成与待检测网络连接对应的待检测特征向量;将待检测特征向量输入预先训练的网络连接分类模型,得到待检测网络连接是否属于采用网络爬虫的网络连接的检测结果。采用本申请可以降低服务器的运维成本。

Detection method and device of network crawler

【技术实现步骤摘要】
网络爬虫的检测方法及装置
本申请涉及互联网
,特别是涉及一种网络爬虫的检测方法及装置。
技术介绍
网络爬虫是一种自动获取网页内容的程序,非法用户可以在客户端部署网络爬虫,客户端可以通过网络爬虫与服务器进行网络连接,并通过网络爬虫不断地向服务器发送访问请求以获取服务器中的信息。因服务器需要不断地响应客户端通过网络爬虫发送的访问请求,会导致服务器不能及时响应合法用户的访问请求。因此,需要检测客户端与服务器之间的网络连接是否为采用网络爬虫的网络连接,以在检测出客户端与服务器之间的网络连接为采用网络爬虫的网络连接时,服务器拒绝响应该客户端发送的访问请求,从而保证服务器可以及时响应合法用户的访问请求。现有技术中,运维人员通过人工分析服务器日志中记载的客户端的访问信息,来判断客户端与服务器的网络连接是否为采用网络爬虫的网络连接。然而,通过运维人员进行人工分析,会需要一定的人力资源,导致服务器的运维成本较高。
技术实现思路
有鉴于此,本申请提供了一种网络爬虫的检测方法及装置,可以降低服务器的运维成本。具体技术方案如下:第一方面,本申请提供了一种网络爬虫的检测方法,所述方法应用于服务器,所述方法包括:接收客户端通过与所述服务器建立的待检测网络连接发送的第一访问请求;根据所述第一访问请求,在预设的多个第一网络属性维度下,获取与每个第一网络属性维度对应的第一特征值;根据多个第一特征值,生成与所述待检测网络连接对应的待检测特征向量;将所述待检测特征向量输入预先训练的网络连接分类模型,得到所述待检测网络连接是否属于采用网络爬虫的网络连接的检测结果。可选的,所述待检测特征向量包括多个特征元素;所述根据多个第一特征值,生成与所述待检测网络连接对应的待检测特征向量,包括:将多个第一特征值按序排列;将排列后的所述多个第一特征值中的每个第一特征值依次作为所述多个特征元素中的每个特征元素的值;获取所述待检测特征向量,所述待检测特征向量包括的每个特征元素的值与每个第一特征值一一对应。可选的,所述待检测特征向量包括多个特征元素;所述根据多个第一特征值,生成与所述待检测网络连接对应的待检测特征向量,包括:获取所述客户端通过与所述服务器建立的历史网络连接发送的第二访问请求,所述历史网络连接为所述客户端与所述服务器在所述待检测网络连接之前建立的网络连接;根据所述第二访问请求,在预设的多个第二网络属性维度下,获取与每个第二网络属性维度对应的第二特征值;将多个第一特征值和多个第二特征值按序排列;将排列后的特征值中的每个特征值依次作为所述多个特征元素中的每个特征元素的值;获取所述待检测特征向量,所述待检测特征向量包括的每个特征元素的值与所述排列后的特征值中的每个特征值一一对应。可选的,所述网络连接分类模型为支持向量机;所述将所述待检测特征向量输入预先训练的网络连接分类模型,得到所述待检测网络连接是否属于采用网络爬虫的网络连接的检测结果,包括:根据所述待检测特征向量和所述网络连接分类模型中的分类函数,计算所述待检测网络连接对应的预测值,所述预测值用于表示所述待检测网络连接属于采用网络爬虫的网络连接的可能性大小;根据所述预测值和预设的置信度计算公式,计算所述待检测网络连接属于采用网络爬虫的网络连接的置信度;若所述置信度大于预设阈值,则确定所述待检测网络连接为采用网络爬虫的网络连接;若所述置信度小于所述预设阈值,则确定所述待检测网络连接不为采用网络爬虫的网络连接。可选的,所述方法还包括:获取第一预设数目个负样本特征向量,所述负样本特征向量为采用网络爬虫的网络连接对应的特征向量;获取第二预设数目个正样本特征向量,所述正样本特征向量为未采用网络爬虫的网络连接对应的特征向量,所述正样本特征向量包含预设的每个网络属性维度对应的正样本特征向量,且该网络属性维度对应的正样本特征向量中该网络属性维度对应的特征值不为零;采用所述正样本特征向量和所述负样本特征向量对预设的初始分类模型中的分类函数的参数进行训练,得到所述网络连接分类模型。可选的,所述方法还包括:若所述待检测网络连接为采用网络爬虫的网络连接,则停止响应所述客户端发送的访问请求。第二方面,本申请提供了一种网络爬虫的检测装置,所述装置应用于服务器,所述装置包括:接收模块,用于接收客户端通过与所述服务器建立的待检测网络连接发送的第一访问请求;确定模块,用于根据所述第一访问请求,在预设的多个第一网络属性维度下,获取与每个第一网络属性维度对应的第一特征值;生成模块,用于根据多个第一特征值,生成与所述待检测网络连接对应的待检测特征向量;计算模块,用于将所述待检测特征向量输入预先训练的网络连接分类模型,得到所述待检测网络连接是否属于采用网络爬虫的网络连接的检测结果。可选的,所述待检测特征向量包括多个特征元素;所述生成模块,具体用于:将多个第一特征值按序排列;将排列后的所述多个第一特征值中的每个第一特征值依次作为所述多个特征元素中的每个特征元素的值;获取所述待检测特征向量,所述待检测特征向量包括的每个特征元素的值与每个第一特征值一一对应。可选的,所述待检测特征向量包括多个特征元素;所述生成模块,还具体用于:获取所述客户端通过与所述服务器建立的历史网络连接发送的第二访问请求,所述历史网络连接为所述客户端与所述服务器在所述待检测网络连接之前建立的网络连接;根据所述第二访问请求,在预设的多个第二网络属性维度下,获取与每个第二网络属性维度对应的第二特征值;将多个第一特征值和多个第二特征值按序排列;将排列后的特征值中的每个特征值依次作为所述多个特征元素中的每个特征元素的值;获取所述待检测特征向量,所述待检测特征向量包括的每个特征元素的值与所述排列后的特征值中的每个特征值一一对应。可选的,所述网络连接分类模型为支持向量机;所述计算模块,具体用于:根据所述待检测特征向量和所述网络连接分类模型中的分类函数,计算所述待检测网络连接对应的预测值,所述预测值用于表示所述待检测网络连接属于采用网络爬虫的网络连接的可能性大小;根据所述预测值和预设的置信度计算公式,计算所述待检测网络连接属于采用网络爬虫的网络连接的置信度;若所述置信度大于预设阈值,则确定所述待检测网络连接为采用网络爬虫的网络连接;若所述置信度小于所述预设阈值,则确定所述待检测网络连接不为采用网络爬虫的网络连接。可选的,所述装置还包括训练模块;所述训练模块,具体用于:获取第一预设数目个负样本特征向量,所述负样本特征向量为采用网络爬虫的网络连接对应的特征向量;获取第二预设数目个正样本特征向量,所述正样本特征向量为未采用网络爬虫的网络连接对应的特征向量,所述正样本特征向量包含预设的每个网络属性维度对应的正样本特征向量,且该网络属性维度对应的正样本特征向量中该网络属性维度对应的特征值不为零;采用所述正样本特征向量和所述负样本特征向量对预设的初始分类模型中的分类函数的参数进行训练,得到所述网络连接分类模型。可选的,所述装置还包括响应模块;所述响应模块,用于若所述待检测网络连接为采用网络爬虫的网络连接,则停止响应所述客户端发送的访问请求。第三方面,本申请提供了一种服务器,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可本文档来自技高网...

【技术保护点】
1.一种网络爬虫的检测方法,其特征在于,所述方法应用于服务器,所述方法包括:接收客户端通过与所述服务器建立的待检测网络连接发送的第一访问请求;根据所述第一访问请求,在预设的多个第一网络属性维度下,获取与每个第一网络属性维度对应的第一特征值;根据多个第一特征值,生成与所述待检测网络连接对应的待检测特征向量;将所述待检测特征向量输入预先训练的网络连接分类模型,得到所述待检测网络连接是否属于采用网络爬虫的网络连接的检测结果。

【技术特征摘要】
1.一种网络爬虫的检测方法,其特征在于,所述方法应用于服务器,所述方法包括:接收客户端通过与所述服务器建立的待检测网络连接发送的第一访问请求;根据所述第一访问请求,在预设的多个第一网络属性维度下,获取与每个第一网络属性维度对应的第一特征值;根据多个第一特征值,生成与所述待检测网络连接对应的待检测特征向量;将所述待检测特征向量输入预先训练的网络连接分类模型,得到所述待检测网络连接是否属于采用网络爬虫的网络连接的检测结果。2.根据权利要求1所述的方法,其特征在于,所述待检测特征向量包括多个特征元素;所述根据多个第一特征值,生成与所述待检测网络连接对应的待检测特征向量,包括:将多个第一特征值按序排列;将排列后的所述多个第一特征值中的每个第一特征值依次作为所述多个特征元素中的每个特征元素的值;获取所述待检测特征向量,所述待检测特征向量包括的每个特征元素的值与每个第一特征值一一对应。3.根据权利要求1所述的方法,其特征在于,所述待检测特征向量包括多个特征元素;所述根据多个第一特征值,生成与所述待检测网络连接对应的待检测特征向量,包括:获取所述客户端通过与所述服务器建立的历史网络连接发送的第二访问请求,所述历史网络连接为所述客户端与所述服务器在所述待检测网络连接之前建立的网络连接;根据所述第二访问请求,在预设的多个第二网络属性维度下,获取与每个第二网络属性维度对应的第二特征值;将多个第一特征值和多个第二特征值按序排列;将排列后的特征值中的每个特征值依次作为所述多个特征元素中的每个特征元素的值;获取所述待检测特征向量,所述待检测特征向量包括的每个特征元素的值与所述排列后的特征值中的每个特征值一一对应。4.根据权利要求1所述的方法,其特征在于,所述网络连接分类模型为支持向量机;所述将所述待检测特征向量输入预先训练的网络连接分类模型,得到所述待检测网络连接是否属于采用网络爬虫的网络连接的检测结果,包括:根据所述待检测特征向量和所述网络连接分类模型中的分类函数,计算所述待检测网络连接对应的预测值,所述预测值用于表示所述待检测网络连接属于采用网络爬虫的网络连接的可能性大小;根据所述预测值和预设的置信度计算公式,计算所述待检测网络连接属于采用网络爬虫的网络连接的置信度;若所述置信度大于预设阈值,则确定所述待检测网络连接为采用网络爬虫的网络连接;若所述置信度小于所述预设阈值,则确定所述待检测网络连接不为采用网络爬虫的网络连接。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:获取第一预设数目个负样本特征向量,所述负样本特征向量为采用网络爬虫的网络连接对应的特征向量;获取第二预设数目个正样本特征向量,所述正样本特征向量为未采用网络爬虫的网络连接对应的特征向量,所述正样本特征向量包含预设的每个网络属性维度对应的正样本特征向量,且该网络属性维度对应的正样本特征向量中该网络属性维度对应的特征值不为零;采用所述正样本特征向量和所述负样本特征向量对预设的初始分类模型中的分类函数的参数进行训练,得到所述网络连接分类模型。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述待检测网络连接为采用网络爬虫的网络...

【专利技术属性】
技术研发人员:孙尚勇
申请(专利权)人:新华三信息安全技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1