域名爬扫方法、装置及网络设备制造方法及图纸

技术编号:37854679 阅读:12 留言:0更新日期:2023-06-14 22:47
本发明专利技术实施例提供了一种域名爬扫方法、装置及网络设备,该方法包括:获取待爬扫域名;通过预设爬虫引擎对所述待爬扫域名进行爬扫,得到第一域名数据,所述预设爬虫引擎为多种爬虫引擎中的其中一个;对所述第一域名数据进行网页特征提取,得到网页信息特征;将所述网页信息特征输入至循环神经网络中进行域名分类,得到分类结果,每一种分类结果指示采用不同种类的爬虫引擎。上述方案,不仅节约成本和时间,还能够缓解高频重复爬扫方式造成的网站业务访问压力过大的情况。问压力过大的情况。问压力过大的情况。

【技术实现步骤摘要】
域名爬扫方法、装置及网络设备


[0001]本专利技术涉及互联网
,尤其涉及一种域名爬扫方法、装置及网络设备。

技术介绍

[0002]当今伴随着互联网的高速发展,万维网(World Wide Web,WWW)上产生了海量的网页数据和资源,在这些数据中往往掺杂了许多违法违规类型的数据。为了保障用户可以浏览到健康、绿色的数据和内容,业界通常使用网络爬虫技术对网页内容通过先抓取后监测的方式来处理。
[0003]目前传统的网络爬虫通常都是基于轮次、深度和周期的高频重复的扫描方式来爬扫内容,这样容易造成网站的业务访问压力过大等问题。

技术实现思路

[0004]本专利技术实施例提供一种域名爬扫方法、装置及网络设备,以解决现有技术中高频重复爬扫方式容易造成网站的业务访问压力过大的问题。
[0005]第一方面,本专利技术实施例提供了一种域名爬扫方法,包括:
[0006]获取待爬扫域名;
[0007]通过预设爬虫引擎对所述待爬扫域名进行爬扫,得到第一域名数据,所述预设爬虫引擎为多种爬虫引擎中的其中一个;
[0008]对所述第一域名数据进行网页特征提取,得到网页信息特征;
[0009]将所述网页信息特征输入至循环神经网络中进行域名分类,得到分类结果,每一种分类结果指示采用不同种类的爬虫引擎。
[0010]可选的,所述将所述网页信息特征输入至循环神经网络中进行域名分类,得到分类结果之后,所述方法还包括:
[0011]根据所述分类结果,获取目标爬虫引擎对应的第一待爬扫队列,所述目标爬虫引擎为所述分类结果指示采用的多种爬虫引擎中的至少一种爬虫引擎;
[0012]将所述待爬扫域名加入到所述第一待爬扫队列中,得到第二待爬扫队列;
[0013]对所述第二待爬扫队列中的域名依次进行爬扫,得到爬扫结果。
[0014]可选的,所述对所述第一域名数据进行网页特征提取,得到网页信息特征,包括:
[0015]获取所述待爬扫域名的域名深度、所述待爬扫域名中包含的统一资源定位符URL的第一数量;
[0016]根据所述域名深度和所述第一数量,获取URL频率向量矩阵和URL内容信息矩阵;
[0017]根据所述URL频率向量矩阵和所述URL内容信息矩阵,计算网页信息向量矩阵;
[0018]将所述网页信息向量矩阵输入至深度学习模型进行计算,得到网页信息特征。
[0019]可选的,所述根据所述域名深度和所述第一数量,获取URL频率向量矩阵,包括:
[0020]获取所述待爬扫域名的第i层深度上的第j个URL出现的第一次数,以及所述第i层深度上所有URL出现的第一总数,i为1至m的整数,m为所述待爬扫域名的深度总层数;
[0021]根据所述第一次数和所述第一总数,计算所述第i层深度上的第j个URL出现的第一频率;
[0022]根据所述第一频率、所述域名深度和所述第一数量,获取URL频率向量矩阵。
[0023]可选的,所述URL频率向量矩阵通过以下公式表示:
[0024][0025][0026]其中,m表示所述域名的深度总层数;
[0027]n表示所述第一数量;
[0028]i表示所述待爬扫域名的第i层深度;
[0029]j表示所述待爬扫域名的第i层深度上的第j个URL;
[0030]A
ij
表示所述第一频率;
[0031]n
ij
表示所述第一次数;
[0032]∑
k
n
ik
表示所述第一总数;
[0033]k表示第i层深度上的URL的总数。
[0034]可选的,所述根据所述域名深度和所述第一数量,获取URL内容信息矩阵,包括:
[0035]获取所述待爬扫域名的第i层深度上的第j个URL内容出现的第二次数,以及所述第i层深度上所有URL内容出现的第二总数,i为1至m的整数,m为所述待爬扫域名的深度总层数;
[0036]根据所述第二次数和所述第二总数,计算所述第i层深度上的第j个URL内容出现的第二频率;
[0037]根据所述第二频率、所述域名深度和所述第一数量,获取URL内容信息矩阵。
[0038]可选的,所述URL内容信息矩阵通过以下公式表示:
[0039][0040][0041]其中,m表示所述域名的深度总层数;
[0042]n表示所述第一数量;
[0043]i表示所述待爬扫域名的第i层深度;
[0044]j表示所述待爬扫域名的第i层深度上的第j个URL;
[0045]B
ij
表示所述第二频率;
[0046]n
ij
表示所述第二次数;
[0047]∑
k
n
ik
表示所述第二总数;
[0048]k表示第i层深度上的URL的总数。
[0049]可选的,所述根据所述URL频率向量矩阵和所述URL内容信息矩阵,计算网页信息向量矩阵,包括:
[0050]将所述URL频率向量矩阵和所述URL内容信息矩阵进行点乘计算,得到网页信息向量矩阵。
[0051]第二方面,本专利技术实施例还提供了一种网络设备,包括存储器,收发机,处理器:
[0052]存储器,用于存储计算机程序;收发机,用于在处理器的控制下收发数据;处理器,用于读取存储器中的计算机程序并执行以下操作:
[0053]获取待爬扫域名;
[0054]通过预设爬虫引擎对所述待爬扫域名进行爬扫,得到第一域名数据,所述预设爬虫引擎为多种爬虫引擎中的其中一个;
[0055]对所述第一域名数据进行网页特征提取,得到网页信息特征;
[0056]将所述网页信息特征输入至循环神经网络中进行域名分类,得到分类结果,每一种分类结果指示采用不同种类的爬虫引擎。
[0057]可选的,所述处理器在将所述网页信息特征输入至循环神经网络中进行域名分类,得到分类结果之后,所述处理器还用于:
[0058]根据所述分类结果,获取目标爬虫引擎对应的第一待爬扫队列,所述目标爬虫引擎为所述分类结果指示采用的多种爬虫引擎中的至少一种爬虫引擎;
[0059]将所述待爬扫域名加入到所述第一待爬扫队列中,得到第二待爬扫队列;
[0060]对所述第二待爬扫队列中的域名依次进行爬扫,得到爬扫结果。
[0061]可选的,所述处理器在对所述第一域名数据进行网页特征提取,得到网页信息特征时,具体用于:
[0062]获取所述待爬扫域名的域名深度、所述待爬扫域名中包含的统一资源定位符URL的第一数量;
[0063]根据所述域名深度和所述第一数量,获取URL频率向量矩阵和URL内容信息矩阵;
[0064]根据所述URL频率向量矩阵和所述URL内容信息矩阵,计算网页信息向量矩阵;
[0065]将所述网页信息向量矩阵输入至深度学习模型进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种域名爬扫方法,其特征在于,所述方法包括:获取待爬扫域名;通过预设爬虫引擎对所述待爬扫域名进行爬扫,得到第一域名数据,所述预设爬虫引擎为多种爬虫引擎中的其中一个;对所述第一域名数据进行网页特征提取,得到网页信息特征;将所述网页信息特征输入至循环神经网络中进行域名分类,得到分类结果,每一种分类结果指示采用不同种类的爬虫引擎。2.根据权利要求1所述的方法,其特征在于,所述将所述网页信息特征输入至循环神经网络中进行域名分类,得到分类结果之后,所述方法还包括:根据所述分类结果,获取目标爬虫引擎对应的第一待爬扫队列,所述目标爬虫引擎为所述分类结果指示采用的多种爬虫引擎中的至少一种爬虫引擎;将所述待爬扫域名加入到所述第一待爬扫队列中,得到第二待爬扫队列;对所述第二待爬扫队列中的域名依次进行爬扫,得到爬扫结果。3.根据权利要求1所述的方法,其特征在于,所述对所述第一域名数据进行网页特征提取,得到网页信息特征,包括:获取所述待爬扫域名的域名深度、所述待爬扫域名中包含的统一资源定位符URL的第一数量;根据所述域名深度和所述第一数量,获取URL频率向量矩阵和URL内容信息矩阵;根据所述URL频率向量矩阵和所述URL内容信息矩阵,计算网页信息向量矩阵;将所述网页信息向量矩阵输入至深度学习模型进行计算,得到网页信息特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述域名深度和所述第一数量,获取URL频率向量矩阵,包括:获取所述待爬扫域名的第i层深度上的第j个URL出现的第一次数,以及所述第i层深度上所有URL出现的第一总数,i为1至m的整数,m为所述待爬扫域名的深度总层数;根据所述第一次数和所述第一总数,计算所述第i层深度上的第j个URL出现的第一频率;根据所述第一频率、所述域名深度和所述第一数量,获取URL频率向量矩阵。5.根据权利要求4所述的方法,其特征在于,所述URL频率向量矩阵通过以下公式表示:5.根据权利要求4所述的方法,其特征在于,所述URL频率向量矩阵通过以下公式表示:其中,m表示所述域名的深度总层数;n表示所述第一数量;i表示所述待爬扫域名的第i层深度;j表示所述待爬扫域名的第i层深度上的第j个URL;A
ij
表示所述第一频率;
n
ij
表示所述第一次数;∑
k
n
ik
表示所述第一总数;k表示第i层深度上的URL的总数。6.根据权利要求3所述的方法,其特征在于,所述根据所述域名深度和所述第一数量,获取URL内容信息矩阵,包括:获取所述待爬扫域名的第i层深度上的第j个URL内容出现的第二次数,以及所述第i层深度上所有URL内容出现的第二总数,i为1至m的整数,m为所述待爬扫域名的深度总层数;根据所述第二次数和所述第二总数,计算所述第i层深度上的第j个URL内容出现的第二频率;根据所述第二频率、所述域名深度和所述第一数量,获取URL内容信息矩阵。7.根据权利要求6所述的方法,其特征在于,所述URL内容信息矩阵通过以下公式表示:7.根据权利要求6所述的方法,其特征在于,所述URL内容信息矩阵通过以下公式表示:其中,m表示所述域名的深度总层数;n表示所述第一数量;i表示所述待爬扫域名的第i层深度;j表示所述待爬扫域名的第i层深度上的第j个URL;B
ij
表示所述第二频率;n
ij
表示所述第二次数;∑
k
n
ik
表示所述第二总数;k表示第i层深度上的URL的总数。8.根据权利要求3所述的方法,其特征在于,所述根据所述URL频率向量矩阵和所述URL内容信息矩阵,计算网页信息向量矩阵,包括:将所述URL频率向量矩阵和所述URL内容信息矩阵进行点乘计算,得到网页信息向量矩阵。9.一种网络设备,其特征在于,包括存储器,收发机,处理器:存储器,用于存储计算机程序;收发机,用于在所述处理器的控制下收发数据;处理器,用于读取所述存储器中的计算机程序并执行以下作:获取待爬扫域名;通过预设爬虫引擎对所述待爬扫域名进行爬扫,得到第一域名数据,所述预设爬虫引擎为多种爬虫引擎中的其中一个;对所述第一域名数据进行网页特征提取,得到...

【专利技术属性】
技术研发人员:彭新军
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1