当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于网络流的Web用户点击目标识别的方法技术

技术编号:19751505 阅读:28 留言:0更新日期:2018-12-12 05:48
本发明专利技术提出一种基于网络流的Web用户点击目标识别的方法,其目的是使用一种新的基于过程的方法来区分用户点击和自动请求,从而实现有效的识别用户点击。本发明专利技术通过隐马尔科夫模型(HMM)实现了上述目的。在本发明专利技术中,使用当前请求与前后请求时间差、当前请求与后续多个请求两两之间的时间差作为观测序列,从而达到建模或识别的目的。本发明专利技术所使用的方法基于过程,它克服了现有方法只在数据点层面进行识别的缺点,通过描述用户点击和自动请求产生的过程来进行识别,且适用于加密与非加密HTTP流。在相同条件下,基于本发明专利技术设计的方法在识别效果上优于现有方法。

【技术实现步骤摘要】
一种基于网络流的Web用户点击目标识别的方法
本专利技术涉及网络
,更具体地,涉及一种基于网络流的Web用户点击目标识别的方法。
技术介绍
万维网(WorldWideWeb,WWW)是一种基于超文本传输协议(HyperTextTransferProtocol,HTTP)的分布式信息系统。它采用浏览器-服务器(Browser-Server,BS)架构实现跨平台的全球性动态信息交互。在这个系统中,服务器端负责文件、数据的存取管理以及为客户提供基于Web的服务,客户端通过浏览器实现所请求的服务及应用。传统的Web服务主要用于提供网页信息的访问,例如:网站访问、电子商务/政务、电子银行、电子邮件、云服务等。随着浏览器功能的日益强大,以及Web服务具有穿透常规防火墙的能力等原因,越来越多的网络服务与应用从以往的“独立运行模式”迁移到BS模式,通过Web的方式为位于防火墙内的用户提供服务,包括:网页游戏、在线多媒体、社交应用等。在这种趋势下,了解并掌握用户的Web访问行为规律、偏好与习惯具有重要意义,它不但可以用于提高与改善各种Web服务的质量与性能,而且可以为Web威胁的检测与防御提供必要的参考。当用户使用Web服务时,客户端会向服务端发起请求,创建一个TCP连接,指定端口号,然后连接到服务器工作。服务器在这个端口监听客户端请求,一旦监听到请求,并分析其类型后,服务器会向客户端返回一个响应状态,同时会返回特定的数据内容,如请求的资源,错误代码,其它状态信息等。这种请求若由用户行为所触发,则被称作用户点击,包括但不限于点击页面URL链接、在浏览器地址栏键入URL以及使用浏览器的书签功能。现代Web页面非常复杂,包含许多HTML文件、框架、JavaScript脚本、多媒体对象、动态生成的内容,对这些内容的请求,大部分是由浏览器自动发出的,所以这种请求被称作自动请求。此外,一些非交互的应用程序(如云存储、操作系统更新等)也会产生自动请求。由于Web是一种用户驱动型服务,实现上述目标的主要手段是识别出用户的点击流序列,通过点击流进一步挖掘、分析用户的Web访问行为规律。然而,由于用户点击产生的Web对象和自动请求产生的Web对象常常混杂在一起,而且现代网站的高度复杂性也导致自动请求产生的Web对象在数量上远远大于用户点击所产生的Web对象数量。因此,在现有技术条件下,从Web流中有效地识别用户点击的触发对象是当前面临的主要挑战。现有识别用户点击的方法按照数据源主要可以分为三类:1、服务器端的用户点击识别,2、客户端的用户点击识别,3、网络侧的用户点击识别。1、服务器端的用户点击识别当Web服务器的资源被请求时,服务器会自动生成日志记录,这些记录常被用于分析用户行为,通过对这些日志进行分析,可以识别用户点击。HTTP(S)要求从Web服务器请求的每个文件都有一个单独的链接,通过该链接可以访问到该文件或其对应的资源,所以当用户点击发生时,该点击请求的资源以及自动请求的资源的相关记录均会被记载在服务器日志中。对服务器端的用户点击识别,一种方法是基于文件类型,即将那些明显不是用户点击请求的文件去除掉,这类文件的后缀通常是gif、jpeg、GIF、JPEG、jpg、JPG、css、js、map等,如参考文献“Cooley,R.,B.Mobasher,andJ.Srivastava,DataPreparationforMiningWorldWideWebBrowsingPatterns.KnowledgeandInformationSystems,1999.1(1):p.5-2.”公开的
技术实现思路
,其它一些像“count.cgi”(一个非常流行的Web站点跟踪统计程序)的文件也可以被忽略,如参考文件“Huiying,Z.andL.Wei,Anintelligentalgorithmofdatapre-processinginWebusagemining.2004.3119-3123Vol.4.”、“Thanamani,V.C.a.D.A.S.,Article:ANovelTechniqueforSessionsIdentificationinWebUsageMiningPreprocessing.InternationalJournalofComputerApplications,2011.34:p.24-28.”公开的技术。此外,在服务器端进行识别时,还要除去搜索引擎的爬虫所发出的请求,如参考文献“Anand,S.andR.RaniAggarwal,AnEfficientAlgorithmforDataCleaningofLogFileusingFileExtensions.InternationalJournalofComputerApplications,2012.48(8):p.13-18.”公开的技术。这种方法在过滤掉明显不是用户点击请求的文件后,将所有没有过滤的文件均视为用户点击。基于文件类型的方法来识别用户点击通常只发生在数据预处理阶段,通过文件后缀来减少数据量,以便使用者可以更好得开展之后的数据分析工作。另一种方法是服务器提供的Web服务可以直接记录用户的操作行为,如参考文献“Silverstein,C.,etal.,Analysisofaverylargewebsearchenginequerylog.SIGIRForum,1999.33(1):p.6-12.”和“Spink,A.,etal.,MultitaskingWebSearchonVivisimo.com,inProceedingsoftheInternationalConferenceonInformationTechnology:CodingandComputing(ITCC'05)-VolumeII-Volume02.2005,IEEEComputerSociety.p.486-490.”公开的方法是对搜索引擎所属的服务器日志进行分析,根据服务器端存储的用户搜索记录来分析用户行为,在该方法中,用户在搜索引擎中的搜索行为、对结果页面的点击行为等均会被记录到服务器日志中;如参考文献“Rafter,R.andB.Smyth,PassiveProfilingfromServerLogsinanOnlineRecruitmentEnvironment.2001.”公开的方法是对求职网站的服务器日志进行分析,该网站记录用户在网站中进行点击等各种行为,将数据存储在服务器日志中。2、客户端的用户点击识别在客户端进行用户点击识别,如参考文献“Weinreich,H.,etal.,Offthebeatentracks:exploringthreeaspectsofwebnavigation,inProceedingsofthe15thinternationalconferenceonWorldWideWeb.2006,ACM:Edinburgh,Scotland.p.133-142.”、“Kammenhuber,N.,etal.,Websearchclickstreams,inProceedingsofthe6thACMSIGCOMMconferen本文档来自技高网
...

【技术保护点】
1.一种基于网络流的Web用户点击目标识别的方法,其特征在于,包括模型训练阶段和网络流识别阶段,其中:模型训练阶段的过程为:Step1:在网络侧采集网络流数据;Step2:使用采集到的网络流数据构造训练样本;Step3:训练用户点击和自动请求的模型;网络流识别阶段的过程为:Step4:提取需要识别的网络流的观测值;Step5:将观测值组成的观测序列输入到由Step3训练好的模型;识别出网络流。

【技术特征摘要】
1.一种基于网络流的Web用户点击目标识别的方法,其特征在于,包括模型训练阶段和网络流识别阶段,其中:模型训练阶段的过程为:Step1:在网络侧采集网络流数据;Step2:使用采集到的网络流数据构造训练样本;Step3:训练用户点击和自动请求的模型;网络流识别阶段的过程为:Step4:提取需要识别的网络流的观测值;Step5:将观测值组成的观测序列输入到由Step3训练好的模型;识别出网络流。2.根据权利要求1所述的方法,其特征在于,Step1所述的在网络侧采集网络流数据,其过程为:在网络侧通过数据包采集软件抓取用户在进行Web浏览过程中的网络数据包,若包含多个用户同时访问,则根据源IP地址对用户进行区分;对于用于训练模型的网络流数据,需要获得每个请求对应的标签,具体是:通过浏览器插件获得用户的真实点击行为,再根据请求目标的URL与网络流数据中相应的字段进行对比,以标记数据。3.根据权利要求2所述的方法,其特征在于,Step2所述构造训练样本是:使用其后续的相邻两个请求间的时间差序列,来描述该请求产生的过程,同时使用Z分数标准化这个序列,使所有用于描述过程的观测值落在固定的数值区间内;在构造描述此过程的序列时,取当前请求及其之后的5个请求构造描述过程的时间差序列时效果最好。此外,再使用当前请求与其前后请求的时间间隔,与上述标准化后的序列共同组成该段网络流的观测序列O1:T=O1O2O3…OT,其中O1,O2,O3…OT∈O。4.根据权利要求3所述的方法,其特征在于,Step3所述的训练用户点击和自动请求的模型是基于HMM,通过对用户点击和自动请求产生的过程分别建模,其过程为:对所有观测值进行聚类即可得到每条观测序列所对应的隐含状态序列S1:T=S1S2S3…ST,其中S1,S2,S3…ST∈S,且根据点击过程可知Si的值取决于前面有限个状态;根据Step1、Step2中的描述,标准化之后的观测值会落在某个特定的数值区间内,则用S1表示在标准化后的数值区间内大于平均值的观测值对应的状态,用S2表示该区间内小于平均值的观测值对应的状态,S3表示RTT的数值大于10秒所对应的状态,S4表示RTT所对应的状态,S5表示RTT的数值小于0.1秒所对应的状态,S6表示剩下一些无法确定的数值所对应的状态;HMM的参数为λ=(A,B,π),其中A为状态转移矩阵,表示状态间的转移关系,Ai,j是矩阵A的第i行、第j列元素,表示Si转移到Sj的概率;B矩阵描述的是状态与观测值的对应关系,Bi,j是矩阵B的第i行、第j列元素,表示Si生成Oj的概率;π为初始状态概率;在此步骤中,需要训练两个模型,用户点击对应的模型λ1和自动请求对应的模型λ2,根据在Step1中采集到的用户真实浏览行为,能对Step2中构造的观测序列进行标记,将其分为和其中为训练λ1的训练样本,为训练λ2的训练样本;具体训练过...

【专利技术属性】
技术研发人员:费星瑞谢逸谭新城
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1