机器学习方法、装置、系统、存储介质及设备制造方法及图纸

技术编号:17249564 阅读:60 留言:0更新日期:2018-02-11 08:00
本发明专利技术公开一种机器学习方法、装置、系统、存储介质及设备,用于恶意网络bot的识别。该方法包括:获取步骤,获取目标网站中的用户访问日志数据,用户访问日志数据包括用户请求的网络地址和请求之间的时间间隔;学习步骤,将用户访问日志数据进行机器学习,得到请求的时间间隔模型。本发明专利技术的技术方案无需使用侵入式技术,能够有效地识别网络异常bot,从而显著地提高了异常bot检测的准确率。

【技术实现步骤摘要】
机器学习方法、装置、系统、存储介质及设备
本专利技术涉及计算机网络的数据处理领域,具体涉及一种机器学习方法、装置、系统、存储介质及设备。
技术介绍
目前网站流量中已经超过50%来自网络bot(Robot,机器人),而在这些网络bot流量中,大约只有三分之一为正常的流量,例如搜索引擎的爬虫等。更多的异常流量用于诸如恶意爬虫,cc攻击,利用业务漏洞进行刷单刷接口,扫描等异常请求。这也直接导致异常bot的检测是目前业界比较迫切需要解决的问题。针对此问题,业界目前采取的方案多为主动探测类方法,使用侵入式的SDK(SoftwareDevelopmentKit,软件开发工具包)实现特定信息的收集然后进行分析判断处理。Bot本身是计算机程序,侵入式SDK的方法用于收集探测bot的一些参数信息。例如目前业界使用较为普遍的检测bot的Cookie支持性,Javascript支持程度,验证码以及设备指纹技术等。侵入式的SDK需要在和潜在客户端交互时,进行干预处理。例如服务端再返回的信息中加上Cookie,script等,然后判断客户端返回的信息是否合规。验证码技术即为在交互过程中强制加入验证逻辑。设备指本文档来自技高网...
机器学习方法、装置、系统、存储介质及设备

【技术保护点】
一种机器学习方法,其特征在于,包括:获取步骤,获取目标网站中的用户访问日志数据,所述用户访问日志数据包括用户请求的网络地址和所述请求之间的时间间隔;学习步骤,将所述用户访问日志数据进行机器学习,得到所述请求的时间间隔模型。

【技术特征摘要】
1.一种机器学习方法,其特征在于,包括:获取步骤,获取目标网站中的用户访问日志数据,所述用户访问日志数据包括用户请求的网络地址和所述请求之间的时间间隔;学习步骤,将所述用户访问日志数据进行机器学习,得到所述请求的时间间隔模型。2.根据权利要求1所述的方法,其特征在于,所述学习步骤进一步包括:拟合步骤,拟合所述用户访问日志数据,得到所述时间间隔的特征,所述特征包括所述时间间隔的异常度;确定步骤,根据所述用户访问日志数据,确定所述时间间隔的条件信息熵;建模步骤,根据所述异常度和所述条件信息熵,得到用于建立所述时间间隔模型的模型函数。3.根据权利要求2所述的方法,其特征在于,所述模型函数通过所述条件信息熵累积所述异常度的修正值获得。4.根据权利要求3所述的方法,其特征在于,所述确定步骤根据以下公式确定所述条件信息熵:CCEm=H(X1,…Xm)-H(X1,…Xm-1)+perc(Xm)*EN(X1)其中,X={Xi}表示所有所述时间间隔的随机序列,xi表示第i个请求和第i-1个请求的时间间隔,H(X1,…Xm)表示信息熵,perc(Xm)表示在长度为m的序列在样本序列中仅出现过一次所占的比例,EN(X1)表示当m=1时的信息熵。5.根据权利要求4所述的方法,其特征在于,所述拟合步骤根据正态分布模型拟合所述用户访问日志数据。6.根据权利要求5所述的方法,其特征在于,所述建模步骤根据以下公式建立所述时间间隔模型:LCCEm=CCEm*∏x(1-f(x;u,σ))其中,x>u+2σ或x<u-2σ,CCEm表示所述条件信息熵,f(x;u,σ)为正态分布的概率密度函数。7.根据权利要求1-6任一项所述的方法,其特征在于,包括:泛化步骤,在所述学习步骤之前,根据所述目标网站的结构,对用于学习的所述用户访问日志数据进行泛化。8.一种机器学习装置,其特征在于,包括:获取模块,用于获取目标网站中的用户访问日志数据,所述用户访问日志数据包括用户请求的网络地址和所述请求之间的时间间隔;学习模块,用于将所述用户访问日志数据进行机器学习,得到所述请求的时间间隔模型。9.根据权利要求8所述的装置,其特征在于,所述学习模块进一步包括:拟合单元,用于拟合所述用户访问日志数据,得到所述时间间隔的特征,所述特征包...

【专利技术属性】
技术研发人员:刘少东
申请(专利权)人:上海优刻得信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1