一种识别统一资源定位符主链接的方法及装置制造方法及图纸

技术编号:8325963 阅读:282 留言:0更新日期:2013-02-14 08:52
本发明专利技术公开了一种识别统一资源定位符(URL)主链接的方法,包括:利用采集到的指定时长内所有客户端发出的全部超文本传送协议(HTTP)请求,根据间隔门限获取各个客户端对应的突发,对突发进行分组获得同主链突发分组;分别对同主链突发组运行关联规则的分析算法得到关联规则,将所有关联规则保存在知识库中;根据合并准则,对从知识库选出指定时间段内所有的关联规则合并,得到新的关联规则;根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对。本发明专利技术还同时公开了一种识别URL主链接的装置,采用本发明专利技术能提高识别URL主链接的准确性。

【技术实现步骤摘要】

本专利技术涉及互联网信息管理领域中的信息解析及分析技术,尤其涉及一种识别统一资源定位符(URL, Uniform Resource Locator)主链接的方法及装置。
技术介绍
当用户使用客户端访问网址时,客户端通过对该网址进行解析得到多个URL链接,再向服务器发出多条获取URL链接·的超文本传送协议(HTTP, Hypertext TransportProtocol)请求即URL请求;该客户端根据服务器返回的内容进行渲染并显示。上述过程中,用户使用客户端访问每一个网址,会发出很多条获取URL链接的HTTP请求,而对用户的上网行为进行分析时,仅关心URL主链接即用户所要访问的主页对应的URL链接,其余的HTTP请求所请求的URL链接作为附属链接或作为垃圾信息过滤。因此,需要对URL主链接进行识别,才能准确的分析用户的上网行为。目前,识别URL主链接的方法为当客户端在线时,对客户端发出的HTTP请求的头信息中的指定域进行过滤,或使用启发式算法对指定域(例如=URL后缀、内容类型、时间序列或内容大小等)进行过滤,得到URL主链接。但是,上述对HTTP请求的头信息中的指定域进行过滤的方法,不是针对页面内容进行的过滤,且HTTP请求的头信息无法提供足够的信息量进行页面分类,所以该方法的准确性较低,比如使用内容类型为“text/html”作为指定域时,结果可能会是多个URL链接。另外,由于启发式算法为使用最优算法求得最优解,且启发式算法为对单一对象进行计算的方法,所以会出现在特定条件下算法失效的问题,比如,当启发式算法中设定的识别准则是内容类型为“text/html”时,若用户点击图片,则该算法会失效,进而无法保证识别URL主链接的准确性。可见,现有的识别URL主链接的方法,识别URL主链接的准确性较低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种识别URL主链接的方法及装置,提高识别URL主链接的准确性。为达到上述目的,本专利技术的技术方案是这样实现的本专利技术提供了一种识别URL主链接的方法,该方法包括利用采集到的指定时长内所有客户端发出的全部HTTP请求,根据间隔门限获取各个客户端对应的突发,对突发进行分组获得同主链突发分组;分别对同主链突发组运行关联规则的分析算法得到关联规则,将所有关联规则保存在知识库中;根据合并准则,对从知识库选出指定时间段内所有的关联规则进行合并,得到新的关联规则;根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对。上述方案中,所述根据间隔门限获取各个客户端对应的突发,包括按照不同的客户端将HTTP请求分组,对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发,并确定各个突发的参考主链接。上述方案中,所述根据间隔门限建立由URL链接组成的一个或多个突发,并确定各个突发的参考主链接,包括建立一个突发作为当前突发,以HTTP请求的发出时间为顺序,将第一个HTTP请求中的URL链接作为当前突发的参考主链接,再逐个检测是否存在连续两个HTTP请求之间的间隔时间高于间隔门限,若没有,则将所述连续两个HTTP请求中的URL链接均加入当前突发;若有,则将所述连续两个HTTP请求中的前一个加入当前突发后,新建立一个突发作为当前突发,将所述连续两个HTTP请求中的后一个作为当前突发的参考主链接加入所述当前突发;依次类推,直至本组内所有HTTP请求均完成检测。上述方案中,所述对突发进行分组获得同主链突发分组,包括建立一个当前同主链突发组,选取一个突发加入当前同主链突发组,从剩余的所有突发中,选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发,加入当前同主链突发组;依次类推,直至没有剩余突发为止。上述方案中,所述合并准则,包括从指定时间段内所有的关联规则中,选出具有相同的前项及后项的关联规则,建立一条新的关联规则,新的关联规则包括前项、后项、支持度和置信度;·其中,所述前项及后项与选出的关联规则相同;所述支持度为所有选出的关联规则支持度之和;所述置信度为将每个选出的关联规则的支持度乘以置信度后相加之和、除所有选出的关联规则的支持度之和。上述方案中,所述根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对,包括选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则,分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连接。本专利技术还提供了一种识别URL主链接的装置,该装置包括链接分组模块和关联规则分析模块;其中,链接分组模块,用于利用采集到的指定时长内所有客户端发出的全部HTTP请求,根据间隔门限获取各个客户端对应的突发,对突发进行分组获得主链突发分组,将全部所述同主链突发分组发给关联规则分析模块;关联规则分析模块,用于分别对链接分组模块发来的同主链突发组运行关联规则的分析算法得到关联规则,将所有关联规则保存在知识库中,根据合并准则,对从知识库选出指定时间段内所有的关联规则进行合并,得到新的关联规则;根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对。上述方案中,所述链接分组模块,具体用于按照不同的客户端将HTTP请求分组,对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发,并确定各个突发的参考主链接。上述方案中,所述链接分组模块,具体用于建立一个突发作为当前突发,以HTTP请求的发出时间为顺序,将第一个HTTP请求中的URL链接作为当前突发的参考主链接,再逐个检测是否存在连续两个HTTP请求之间的间隔时间高于间隔门限,若没有,则将所述连续两个HTTP请求中的URL链接均加入当前突发;若有,则将所述连续两个HTTP请求中的前一个加入当前突发后,新建立一个突发作为当前突发,将所述连续两个HTTP请求中的后一个作为当前突发的参考主链接加入所述当前突发;依次类推,直至本组内所有HTTP请求均完成检测。上述方案中,所述链接分组模块,具体用于建立一个当前同主链突发组,选取一个突发加入当前同主链突发组,从剩余的所有突发中,选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发,加入当前同主链突发组;依次类推,直至没有剩余突发为止。上述方案中,所述关联规则分析模块,具体用于根据合并准则从指定时间段内所有的关联规则中,选出具有相同的前项及后项的关联规则,建立一条新的关联规则,新的关 联规则包括前项、后项、支持度和置信度;其中,所述前项及后项与选出的关联规则相同;所述支持度为所有选出的关联规则支持度之和;所述置信度为将每个选出的关联规则的支持度乘以置信度后相加之和、除所有选出的关联规则的支持度之和。上述方案中,所述关联规则分析模块,具体用于选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则,分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连接。本专利技术所提供的识别URL主链接的方法及装置,能使用关联规则的分析算法,分别对根据HTTP请求得到的同主链突发分组的所有URL链接进行分析,得到关联规则后,根据合并准则得到新的关联规则,再根据置信度门限及支持度门限对新的关联规则进行筛选,最终得到URL主本文档来自技高网
...

【技术保护点】
一种识别统一资源定位符URL主链接的方法,其特征在于,该方法包括:利用采集到的指定时长内所有客户端发出的全部超文本传送协议HTTP请求,根据间隔门限获取各个客户端对应的突发,对突发进行分组获得同主链突发分组;分别对同主链突发组运行关联规则的分析算法得到关联规则,将所有关联规则保存在知识库中;根据合并准则,对从知识库选出指定时间段内所有的关联规则进行合并,得到新的关联规则;根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对。

【技术特征摘要】
1.一种识别统一资源定位符URL主链接的方法,其特征在于,该方法包括 利用采集到的指定时长内所有客户端发出的全部超文本传送协议HTTP请求,根据间隔门限获取各个客户端对应的突发,对突发进行分组获得同主链突发分组; 分别对同主链突发组运行关联规则的分析算法得到关联规则,将所有关联规则保存在知识库中; 根据合并准则,对从知识库选出指定时间段内所有的关联规则进行合并,得到新的关联规则; 根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对。2.根据权利要求I所述的方法,其特征在于,所述根据间隔门限获取各个客户端对应的突发,包括按照不同的客户端将HTTP请求分组,对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发,并确定各个突发的参考主链接。3.根据权利要求2所述的方法,其特征在于,所述根据间隔门限建立由URL链接组成的一个或多个突发,并确定各个突发的参考主链接,包括 建立一个突发作为当前突发,以HTTP请求的发出时间为顺序,将第一个HTTP请求中的URL链接作为当前突发的参考主链接,再逐个检测是否存在连续两个HTTP请求之间的间隔时间高于间隔门限,若没有,则将所述连续两个HTTP请求中的URL链接均加入当前突发; 若有,则将所述连续两个HTTP请求中的前一个加入当前突发后,新建立一个突发作为当前突发,将所述连续两个HTTP请求中的后一个作为当前突发的参考主链接加入所述当前突发;依次类推,直至本组内所有HTTP请求均完成检测。4.根据权利要求I所述的方法,其特征在于,所述对突发进行分组获得同主链突发分组,包括建立一个当前同主链突发组,选取一个突发加入当前同主链突发组,从剩余的所有突发中,选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发,力口入当前同主链突发组;依次类推,直至没有剩余突发为止。5.根据权利要求I所述的方法,其特征在于,所述合并准则,包括从指定时间段内所有的关联规则中,选出具有相同的前项及后项的关联规则,建立一条新的关联规则,新的关联规则包括前项、后项、支持度和置信度; 其中,所述前项及后项与选出的关联规则相同;所述支持度为所有选出的关联规则支持度之和;所述置信度为将每个选出的关联规则的支持度乘以置信度后相加之和、除所有选出的关联规则的支持度之和。6.根据权利要求I所述的方法,其特征在于,所述根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对,包括选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则,分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连...

【专利技术属性】
技术研发人员:贾晋康齐燕博张永臣
申请(专利权)人:北京网康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1