网页机器行为检测方法及系统技术方案

技术编号:20681553 阅读:18 留言:0更新日期:2019-03-27 19:05
提供了一种网页机器行为检测方法及系统。所述方法包括:获取多条网页操作行为样本,其中,所述多条网页操作行为样本包括多条具有机器行为标签的机器行为样本、多条具有人类行为标签的人类行为样本和多条不具有标签的未知行为样本;从所述多条网页操作行为样本分别提取行为特征;将每条网页操作行为样本作为一个样本点,基于提取的行为特征计算各个样本点之间的距离;基于计算出的各个样本点之间的距离,构建将k近邻图和互k近邻图融合的融合k近邻图;基于构建的融合k近邻图,对各个样本点执行聚类分析;基于聚类分析的结果,从已具有标签的样本点开始向不具有标签的样本点执行标签扩散;根据标签扩散的结果确定未知行为样本是否为机器行为。

【技术实现步骤摘要】
网页机器行为检测方法及系统
本专利技术总体说来涉及互联网行为管理领域,更具体地说,涉及一种基于新型的半监督机器学习算法检测网页机器行为的方法及系统。
技术介绍
当前互联网行为中总是存在恶意的机器行为,例如,利用机器或软件替代人在特定网站注册、登录,从事抢票或灌水等非正常活动,给网站的正常经营造成极大干扰。因此,需要解决如何区别互联网人类行为和机器行为的防止恶意互联网机器行为的问题。现有的防止网页恶意机器行为的方案主要分为以下几类:1、图片验证码:这是目前最常见的验证方式,图片内容可以是字符也可以是某种物体的识别。该类验证方式最大的特点是安全程度和用户体验呈反比,即验证码设置得越复杂,越可以阻止机器自动识别,但是也增加了人类用户的识别困难,有些验证码甚至连人类用户都要尝试多次才能输入正确。2、滑块验证码:近几年提出的较新的验证方式,用户需要滑动一个方块至指定位置,通过算法分析用户滑动滑块的行为特征,计算每次滑动与人类滑动行为的相似性,判断滑块行为是否是人类操作。该方法的优点是用户体验相对友好,但仍然需要一个验证的流程,打断用户的使用,影响用户体验。3、网页机器行为识别:通过记录一段时间内在网页上的鼠标、触控、键盘操作行为,提取相关特征,计算某次操作的特征与人类特征的距离,距离较远的操作行为,就判定为机器行为。该方法的好处是使用场景更多,可以在不需要输入验证码的场景下识别机器行为,几乎不会打断用户的使用。缺点是仅计算操作行为之间的相似性,需要人工设定阈值,没有使用机器学习模型,泛化性差。4、使用有监督学习算法进行网页行为分析,但是有监督学习算法需要大量的恶意机器行为样本,而在实际应用中,人类行为的获取比较简易,但是恶意的机器操作行为获取代价很大且数量非常少,因此不可能获取足够的机器样本。此外,相比于正常的人类行为,恶意机器行为仅占极小部分,从机器学习算法角度来考虑,这是一个正负样本严重不平衡的分类问题。因此使用传统的有监督算法训练出的模型识别机器行为的准确率很低,无法满足高精度要求的应用场景。基于上述原因,利用有监督学习算法来识别机器行为的方法无法推广。
技术实现思路
本专利技术的示例性实施例旨在克服上述现有网页恶意机器行为防止方法中存在的用户体验差、泛化性差、需要大量机器行为样本等的缺陷。根据本专利技术的示例性实施例,提供一种网页机器行为检测方法,包括:获取多条网页操作行为样本,其中,所述多条网页操作行为样本包括多条具有机器行为标签的机器行为样本、多条具有人类行为标签的人类行为样本和多条不具有标签的未知行为样本;从所述多条网页操作行为样本分别提取行为特征;将每条网页操作行为样本作为一个样本点,基于提取的行为特征计算各个样本点之间的距离;基于计算出的各个样本点之间的距离,构建将k近邻图和互k近邻图融合的融合k近邻图;基于构建的融合k近邻图,对各个样本点执行聚类分析;基于聚类分析的结果,从已具有标签的样本点开始向不具有标签的样本点执行标签扩散;根据标签扩散的结果确定未知行为样本是否为机器行为。可选地,机器行为样本的数量可小于人类行为样本的数量,人类行为样本的数量可小于未知行为样本的数量。可选地,行为特征可包括以下各个特征值中的至少一个:鼠标点击/屏幕触控次数、鼠标点击/屏幕触控平均时间间隔、鼠标点击/屏幕触控最大时间间隔、鼠标点击/屏幕触控最小时间间隔、键盘点击次数、键盘点击每个按键的次数占所有样本中点击该按键次数的比重、键盘点击不同按键的数量、键盘点击平均时间间隔、键盘点击最大时间间隔、键盘点击最小时间间隔、在将显示器屏幕等分为预定数量的区域的情况下光标在每个区域的点击/触控次数占该样本的鼠标点击/屏幕触控次数的比重。可选地,基于提取的行为特征计算各个样本点之间的距离的步骤可包括:对于各个样本点两两进行计算,其中,对于任意两个样本点,计算这两个样本点的每对相应特征值之间的差值的平方和的算术平方根,作为这两个样本点之间的距离。可选地,构建融合k近邻图的步骤可包括:基于计算出的各个样本点之间的距离,分别确定各个样本点之间是单向连通关系、双向连通关系还是无连通关系;基于确定结果构建融合k近邻图。可选地,融合k近邻图可被构建为:其中,Xi和Xj分别为两个样本点,表示距离样本点Xi最近的P2个样本点的集合,表示距离样本点Xi最近的P1个样本点的集合,表示距离样本点Xj最近的P1个样本点的集合,其中,P1和P2的值由用户设置。可选地,对各个样本点执行聚类分析的步骤可包括:基于各个样本点之间的双向连通关系,将各个样本点分别划分到孤立点集合或各个子簇。可选地,将各个样本点分别划分到孤立点集合或各个子簇的步骤可包括:针对各个样本点中的每个样本点执行以下操作:计算与该样本点具有双向连通关系的样本点的数量;将计算出的数量与预定值进行比较;如果计算出的数量小于或等于所述预定值,则将该样本点确定为孤立点,并将该样本点划分到孤立点集合;如果计算出的数量大于所述预定值,则将该样本点划分到各个子簇,其中,在划分子簇的过程中,针对各个样本点中的任意两个样本点,如果这两个样本点都不为孤立点且具有双向连通关系,则将这两个样本点划分到同一子簇。可选地,如果计算出的数量小于或等于所述预定值,则将该样本点确定为孤立点,并将该样本点划分到孤立点集合的步骤可包括:当样本点Xi满足H(i)≤P1-P3时,确定样本点Xi为孤立点,并将样本点Xi划分到孤立点集合S,其中,H(i)表示与样本点Xi具有双向连通关系的样本点的数量,P3的值由用户设置。其中,如果计算出的数量大于所述预定值,则将该样本点划分到各个子簇的步骤可包括:当样本点时,将满足的样本点Xj与样本点Xi划分到同一个子簇。可选地,从已具有标签的样本点开始向不具有标签的样本点执行标签扩散的步骤可包括:按顺序执行以下步骤:(1)针对所包含的具有标签的样本点仅包括具有机器行为标签的样本点的子簇,将该子簇中的其它不具有标签的样本点贴上机器行为标签,针对所包含的具有标签的样本点仅包括具有人类行为标签的样本点的子簇,将该子簇中的其它不具有标签的样本点贴上人类行为标签;(2)针对仅包括不具有标签的样本点的子簇,针对该子簇中的所有样本点,分别在与每个样本点距离最近的属于其它子簇的P2个样本点之中,从距离最近的样本点开始按距离逐步探索已具有标签且属于所有样本点都具有相同标签的子簇的特定样本点;一旦搜索到特定样本点,则停止搜索,当特定样本点的数量为一个或特定样本点的数量为多个且具有相同的标签时,将该子簇中的所有样本点贴上与特定样本点相同的标签,当特定样本点的数量为多个且具有不同的标签且不同的标签所对应的特定样本点的数量不同时,将该子簇中的所有样本点贴上与数量最多的对应的特定样本点相同的标签,当特定样本点的数量为多个且具有不同的标签且不同的标签所对应的特定样本点的数量相同时,将该子簇中的所有样本点贴上机器行为标签;如果没有搜索到特定样本点,则不对该子簇中的样本点贴标签;(3)针对未具有标签的孤立点、既包括具有机器行为标签的样本点又包括具有人类行为标签的样本点的子簇中的其它未具有标签的样本点以及在步骤(2)中未获得标签的样本点中的每个样本点,将该样本点贴上与该样本点距离最近的具有标签的样本点相同的标签。可选地,所述网页机器行本文档来自技高网
...

【技术保护点】
1.一种网页机器行为检测方法,包括:获取多条网页操作行为样本,其中,所述多条网页操作行为样本包括多条具有机器行为标签的机器行为样本、多条具有人类行为标签的人类行为样本和多条不具有标签的未知行为样本;从所述多条网页操作行为样本分别提取行为特征;将每条网页操作行为样本作为一个样本点,基于提取的行为特征计算各个样本点之间的距离;基于计算出的各个样本点之间的距离,构建将k近邻图和互k近邻图融合的融合k近邻图;基于构建的融合k近邻图,对各个样本点执行聚类分析;基于聚类分析的结果,从已具有标签的样本点开始向不具有标签的样本点执行标签扩散;根据标签扩散的结果确定未知行为样本是否为机器行为。

【技术特征摘要】
1.一种网页机器行为检测方法,包括:获取多条网页操作行为样本,其中,所述多条网页操作行为样本包括多条具有机器行为标签的机器行为样本、多条具有人类行为标签的人类行为样本和多条不具有标签的未知行为样本;从所述多条网页操作行为样本分别提取行为特征;将每条网页操作行为样本作为一个样本点,基于提取的行为特征计算各个样本点之间的距离;基于计算出的各个样本点之间的距离,构建将k近邻图和互k近邻图融合的融合k近邻图;基于构建的融合k近邻图,对各个样本点执行聚类分析;基于聚类分析的结果,从已具有标签的样本点开始向不具有标签的样本点执行标签扩散;根据标签扩散的结果确定未知行为样本是否为机器行为。2.如权利要求1所述的网页机器行为检测方法,其中,机器行为样本的数量小于人类行为样本的数量,人类行为样本的数量小于未知行为样本的数量。3.如权利要求1所述的网页机器行为检测方法,其中,行为特征包括以下各个特征值中的至少一个:鼠标点击/屏幕触控次数、鼠标点击/屏幕触控平均时间间隔、鼠标点击/屏幕触控最大时间间隔、鼠标点击/屏幕触控最小时间间隔、键盘点击次数、键盘点击每个按键的次数占所有样本中点击该按键次数的比重、键盘点击不同按键的数量、键盘点击平均时间间隔、键盘点击最大时间间隔、键盘点击最小时间间隔、在将显示器屏幕等分为预定数量的区域的情况下光标在每个区域的点击/触控次数占该样本的鼠标点击/屏幕触控次数的比重。4.如权利要求3所述的网页机器行为检测方法,其中,基于提取的行为特征计算各个样本点之间的距离的步骤包括:对于各个样本点两两进行计算,其中,对于任意两个样本点,计算这两个样本点的每对相应特征值之间的差值的平方和的算术平方根,作为这两个样本点之间的距离。5.如权利要求1所述的网页机器行为检测方法,其中,构建融合k近邻图的步骤包括:基于计算出的各个样本点之间的距离,分别确定各个样本点之间是单向连通关系、双向连通...

【专利技术属性】
技术研发人员:秦一焜
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1