一种基于网络流的Web用户点击目标识别的方法技术

技术编号：19751505 阅读：28 留言：0更新日期：2018-12-12 05:48

本发明专利技术提出一种基于网络流的Web用户点击目标识别的方法，其目的是使用一种新的基于过程的方法来区分用户点击和自动请求，从而实现有效的识别用户点击。本发明专利技术通过隐马尔科夫模型（HMM）实现了上述目的。在本发明专利技术中，使用当前请求与前后请求时间差、当前请求与后续多个请求两两之间的时间差作为观测序列，从而达到建模或识别的目的。本发明专利技术所使用的方法基于过程，它克服了现有方法只在数据点层面进行识别的缺点，通过描述用户点击和自动请求产生的过程来进行识别，且适用于加密与非加密HTTP流。在相同条件下，基于本发明专利技术设计的方法在识别效果上优于现有方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网络流的Web用户点击目标识别的方法
本专利技术涉及网络
，更具体地，涉及一种基于网络流的Web用户点击目标识别的方法。
技术介绍
万维网(WorldWideWeb,WWW)是一种基于超文本传输协议(HyperTextTransferProtocol，HTTP)的分布式信息系统。它采用浏览器-服务器(Browser-Server，BS)架构实现跨平台的全球性动态信息交互。在这个系统中，服务器端负责文件、数据的存取管理以及为客户提供基于Web的服务，客户端通过浏览器实现所请求的服务及应用。传统的Web服务主要用于提供网页信息的访问，例如：网站访问、电子商务/政务、电子银行、电子邮件、云服务等。随着浏览器功能的日益强大，以及Web服务具有穿透常规防火墙的能力等原因，越来越多的网络服务与应用从以往的“独立运行模式”迁移到BS模式，通过Web的方式为位于防火墙内的用户提供服务，包括：网页游戏、在线多媒体、社交应用等。在这种趋势下，了解并掌握用户的Web访问行为规律、偏好与习惯具有重要意义，它不但可以用于提高与改善各种Web服务的质量与性能，而且可以为Web威胁的检测与防御提供必要的参考。当用户使用Web服务时，客户端会向服务端发起请求，创建一个TCP连接，指定端口号，然后连接到服务器工作。服务器在这个端口监听客户端请求，一旦监听到请求，并分析其类型后，服务器会向客户端返回一个响应状态，同时会返回特定的数据内容，如请求的资源，错误代码，其它状态信息等。这种请求若由用户行为所触发，则被称作用户点击，包括但不限于点击页面URL链接、在浏览器地址栏键入URL...

【技术保护点】
1.一种基于网络流的Web用户点击目标识别的方法，其特征在于，包括模型训练阶段和网络流识别阶段，其中：模型训练阶段的过程为：Step1：在网络侧采集网络流数据；Step2：使用采集到的网络流数据构造训练样本；Step3：训练用户点击和自动请求的模型；网络流识别阶段的过程为：Step4：提取需要识别的网络流的观测值；Step5：将观测值组成的观测序列输入到由Step3训练好的模型；识别出网络流。

【技术特征摘要】
1.一种基于网络流的Web用户点击目标识别的方法，其特征在于，包括模型训练阶段和网络流识别阶段，其中：模型训练阶段的过程为：Step1：在网络侧采集网络流数据；Step2：使用采集到的网络流数据构造训练样本；Step3：训练用户点击和自动请求的模型；网络流识别阶段的过程为：Step4：提取需要识别的网络流的观测值；Step5：将观测值组成的观测序列输入到由Step3训练好的模型；识别出网络流。2.根据权利要求1所述的方法，其特征在于，Step1所述的在网络侧采集网络流数据，其过程为：在网络侧通过数据包采集软件抓取用户在进行Web浏览过程中的网络数据包，若包含多个用户同时访问，则根据源IP地址对用户进行区分；对于用于训练模型的网络流数据，需要获得每个请求对应的标签，具体是：通过浏览器插件获得用户的真实点击行为，再根据请求目标的URL与网络流数据中相应的字段进行对比，以标记数据。3.根据权利要求2所述的方法，其特征在于，Step2所述构造训练样本是：使用其后续的相邻两个请求间的时间差序列，来描述该请求产生的过程，同时使用Z分数标准化这个序列，使所有用于描述过程的观测值落在固定的数值区间内；在构造描述此过程的序列时，取当前请求及其之后的5个请求构造描述过程的时间差序列时效果最好。此外，再使用当前请求与其前后请求的时间间隔，与上述标准化后的序列共同组成该段网络流的观测序列O1:T＝O1O2O3…OT，其中O1,O2,O3…OT∈O。4.根据权利要求3所述的方法，其特征在于，Step3所述的训练用户点击和自动请求的模型是基于HMM，通过对用户点击和自动请求产生的过程分别建模，其过程为：对所有观测值进行聚类即可得到每条观测序列所对应的隐含状态序列S1:T＝S1S2S3…ST，其中S1,S2,S3…ST∈S，且根据点击过程可知Si的值取决于前面有限个状态；根据Step1、Step2中的描述，标准化之后的观测值会落在某个特定的数值区间内，则用S1表示在标准化后的数值区间内大于平均值的观测值对应的状态，用S2表示该区间内小于平均值的观测值对应的状态，S3表示RTT的数值大于10秒所对应的状态，S4表示RTT所对应的状态，S5表示RTT的数值小于0.1秒所对应的状态，S6表示剩下一些无法确定的数值所对应的状态；HMM的参数为λ＝(A,B,π)，其中A为状态转移矩阵，表示状态间的转移关系，Ai,j是矩阵A的第i行、第j列元素，表示Si转移到Sj的概率；B矩阵描述的是状态与观测值的对应关系，Bi,j是矩阵B的第i行、第j列元素，表示Si生成Oj的概率；π为初始状态概率；在此步骤中，需要训练两个模型，用户点击对应的模型λ1和自动请求对应的模型λ2，根据在Step1中采集到的用户真实浏览行为，能对Step2中构造的观测序列进行标记，将其分为和其中为训练λ1的训练样本，为训练λ2的训练样本；具体训练过...

【专利技术属性】
技术研发人员：费星瑞，谢逸，谭新城，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人