【技术实现步骤摘要】
一种基于图神经网络的网络爬虫检测方法、系统及装置
本专利技术涉及互联网
,特别涉及一种基于图神经网络的网络爬虫检测方法、系统及装置。
技术介绍
随着互联网技术的不断发展,网络爬虫的泛滥也成为互联网中日趋严重的问题,据统计,有些网站一半以上的流量都来自网络爬虫。目前,针对网络爬虫的检测方法也在不断完善,例如,可以利用统计学特征对网站的流量进行分析,从而识别出流量中的网络爬虫。此外,还可以借助于深度学习的算法,将用户的访问请求转换为时间序列的问题进行分析,从而识别出哪些访问行为其实是网络爬虫发起的。然而,现有的网络爬虫的检测方法,通常只能对固定时间长度的数据进行分析,如果数据的序列过长,则需要对数据进行分割之后再进行处理,这样无疑会降低网络爬虫的检测效率。
技术实现思路
本申请的目的在于提供一种基于图神经网络的网络爬虫检测方法、系统及装置,能够提高网络爬虫的检测效率。为实现上述目的,本申请一方面提供一种基于图神经网络的网络爬虫检测方法,所述方法包括:获取网络会话样本,所述网络会话样本中包 ...
【技术保护点】
1.一种基于图神经网络的网络爬虫检测方法,其特征在于,所述方法包括:/n获取网络会话样本,所述网络会话样本中包括访问的各个资源;/n提取所述网络会话样本中各个所述资源的资源特征,所述资源特征包括所述资源在网站中体现的固有特征和/或用户访问所述资源的会话特征;/n基于提取的所述资源特征,构建所述网络会话样本的资源图,并利用预设图算法对构建的所述资源图进行训练,以通过训练得到的分类模型检测网络爬虫。/n
【技术特征摘要】
1.一种基于图神经网络的网络爬虫检测方法,其特征在于,所述方法包括:
获取网络会话样本,所述网络会话样本中包括访问的各个资源;
提取所述网络会话样本中各个所述资源的资源特征,所述资源特征包括所述资源在网站中体现的固有特征和/或用户访问所述资源的会话特征;
基于提取的所述资源特征,构建所述网络会话样本的资源图,并利用预设图算法对构建的所述资源图进行训练,以通过训练得到的分类模型检测网络爬虫。
2.根据权利要求1所述的方法,其特征在于,获取网络会话样本包括:
获取目标网站的当前网络会话,并解析所述当前网络会话中包含的各个候选资源;
根据所述目标网站的业务需求,从所述各个候选资源中选择目标资源,并将选择的所述目标资源作为网络会话样本中包含的资源。
3.根据权利要求1所述的方法,其特征在于,所述固有特征至少包括资源标识,所述固有特征还包括资源的访问热度、资源的内容类型、资源的信息量、资源的功能属性中的一种;所述会话特征包括资源访问间隔时长、资源或者页面的停留时长、网络会话中的访问序列、用户权项的变化情况、资源访问次数中的一种。
4.根据权利要求1或3所述的方法,其特征在于,在提取所述网络会话样本中各个所述资源的资源特征之后,所述方法还包括:
识别所述资源特征的数值类型,若所述数值类型表征连续型数据,对所述资源特征进行标准化和归一化处理;若所述数值类型表征离散型数据,将所述资源特征转换为特征向量。
5.根据权利要求4所述的方法,其特征在于,在将所述资源特征转换为特征向量时,若对所述资源特征进行标签编码,将标签编码后的数据通过嵌入层转换为特征向量。
6.根据权利要求1所述的方法,其特征在于,构建所述网络会话样本的资源图包括:
在所述网络会话样本中确定主要资源和辅助资源,并生成所述主要资源相对应的主节点;
确定所述辅助资源的表现形式,并在待构建的资源图中生成与所述表现形式相匹配的内容;
在所述待构建的资源图中添加节点边,以构建所述网络会话样本的资源图。
7.根据权利要求6所述的方法,其特征在于,生成所述主要资源相对应的主节点包括:
若所述网络会话样本中包括多个重复的目标主要资源,针对重复的所述目标主要资源,仅生成一个对应的主节点;
或者
若所述网络会话样本中包括多个重复的目标主要资源,针对每个重复的所述目标主要资源,分别生成对应的主节点。
8.根据权利要求6或7所述的方法,其特征在于,在生成所述主要资源相对应的主节点之后,所述方法还包括:
判断所述主要资源在待建构的资源图中是否具备唯一性,若具备唯一性,在所述主要资源对应的主节点中添加所述主要资源的固有特征,并添加会话特征中表征累计量的会话特征;
若不具备唯一性,在所述主要资源对应的主节点中添加所述主要资源的固有特征,并添加会话特征中表征用户操作行为的会话特征。
9...
【专利技术属性】
技术研发人员:洪镇宇,黄梅芬,
申请(专利权)人:网宿科技股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。