网页数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:23315262 阅读:8 留言:0更新日期:2020-02-11 17:51
本申请涉及一种网页数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。采用本方法能够提高得到目标网页行为数据的准确性。

Web data processing methods, devices, computer equipment and storage media

【技术实现步骤摘要】
网页数据处理方法、装置、计算机设备和存储介质
本申请涉及互联网
,特别是涉及一种网页数据处理方法、装置、计算机设备和存储介质。
技术介绍
随着互联网技术的发展,用户通过互联网浏览网页页面的过程中,通过挖掘用户在网页中的行为数据,为用户提供更好的互联网服务。然而,随着爬虫技术的发展,网络爬虫越来越泛滥,当网络爬虫在爬取互联网数据时,会模拟用户行为,比如,模拟用户登录,登录之后爬取数据。从而导致挖掘到的网页行为数据不够准确。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高得到网页行为数据准确性的网页数据处理方法、装置、计算机设备和存储介质。一种网页数据处理方法,所述方法包括:获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。在其中一个实施例中,获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括:获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。在其中一个实施例中,获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括:获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率;获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率;当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。在其中一个实施例中,在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括:将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库;则在当网页行为数据存在异常行为数据时,获取异常行为数据对应的网页访问数据之后,还包括:获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识;当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。在其中一个实施例中,已训练的爬虫识别模型的生成步骤,包括:获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签;将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。在其中一个实施例中,在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括:根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。一种网页数据处理装置,所述装置包括:检测模块,用于获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;访问数据获取模块,用于当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;识别模块,用于根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;行为数据得到模块,用于当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;目标数据得到模块,用于根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。在其中一个实施例中,检测模块还用于获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。上述网页数据处理方法、装置、计算机设备和存储介质,通过预设规则检测网页行为数据中是否存在异常行为数据,当存在异常行为数据时,使用爬虫识别模型识别出异常行为数据中的爬虫网页行为数据,能够准确的得到爬虫网页行为数据,然后根据爬虫网页行为数据得到目标网页行为数据,提高了得到的目标网页行为数据的准确性。附图说明图1为一个实施例中网页数据处理方法的应用场景图;图2为一个实施例中网页数据处理方法的流程示意图;图3为一个实施例中得到异常行为数据的流程示意图;图4为另一个实施例中得到异常行为数据的流程示意图;图5为一个实施例中得到爬虫网页行为数据的流程示意图;图6为一个实施例中训练爬虫识别模型的流程示意图;图7为一个实施例中生成网页点击行为展示图的流程示意图;图8为一个实施例中网页数据处理装置的结构框图;图9为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅本文档来自技高网...

【技术保护点】
1.一种网页数据处理方法,所述方法包括:/n获取网页行为数据,根据预设规则检测所述网页行为数据中是否存在异常行为数据;/n当所述网页行为数据中存在所述异常行为数据时,获取所述异常行为数据对应的网页访问数据;/n根据所述网页访问数据提取访问特征,将所述访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;/n当所述爬虫识别结果是所述网页访问数据为爬虫访问数据时,得到所述网页访问数据中的爬虫标识,根据所述爬虫标识从所述网页行为数据中得到对应的爬虫网页行为数据;/n根据所述爬虫网页行为数据和所述网页行为数据得到目标网页行为数据。/n

【技术特征摘要】
1.一种网页数据处理方法,所述方法包括:
获取网页行为数据,根据预设规则检测所述网页行为数据中是否存在异常行为数据;
当所述网页行为数据中存在所述异常行为数据时,获取所述异常行为数据对应的网页访问数据;
根据所述网页访问数据提取访问特征,将所述访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;
当所述爬虫识别结果是所述网页访问数据为爬虫访问数据时,得到所述网页访问数据中的爬虫标识,根据所述爬虫标识从所述网页行为数据中得到对应的爬虫网页行为数据;
根据所述爬虫网页行为数据和所述网页行为数据得到目标网页行为数据。


2.根据权利要求1所述的方法,其特征在于,所述获取网页行为数据,根据预设规则检测所述网页行为数据中是否存在异常行为数据,包括:
获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据所述第一网页行为数据和所述第二网页行为数据得到增量行为数据;
当所述增量行为数据超过预设增量行为数据时,所述第二时间段对应的第二网页行为数据为异常行为数据。


3.根据权利要求1所述的方法,其特征在于,所述获取网页行为数据,根据预设规则检测所述网页行为数据中是否存在异常行为数据,包括:
获取各个历史时间段的网页行为数据,根据所述各个历史时间段的网页行为数据计算得到历史数据增长率;
获取目标时间段的网页行为数据,根据所述目标时间段的网页行为数据计算得到目标数据增长率,比较所述目标数据增长率和所述历史数据增长率;
当所述目标数据增长率超过所述历史数据增长率时,所述目标时间段的网页行为数据为异常行为数据。


4.根据权利要求1所述的方法,其特征在于,在所述根据所述爬虫网页行为数据和所述网页行为数据得到目标网页行为数据之后,还包括:
将所述爬虫标识和所述爬虫标识对应的网页访问数据关联存储到预设黑名单数据库;
则在所述当所述网页行为数据存在异常行为数据时,获取所述异常行为数据对应的网页访问数据之后,还包括:
获取所述网页访问数据中的访问标识,在所述预设黑名单数据库中查找所述访问标识;
当所述预设黑名单数据库中存在所述访问标识时,根据所述访问标识从所述网页行为数据中得到对应的爬虫网页行为数据。


5.根据权利要求1所述的方法,其特征在于,所述已训练的爬虫识别模型的生成步骤...

【专利技术属性】
技术研发人员:梅锦振华
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1