网页地址的获取方法和获取装置制造方法及图纸

技术编号:7111668 阅读:209 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种网页地址的获取方法和获取装置,方法包括:在浏览器启动时,初始化浏览器中预先嵌入的浏览器嵌入插件,并在浏览器嵌入插件的初始化过程中,向浏览器中注册浏览器嵌入插件的回调函数指针;在浏览器每次触发与打开网页相应的操作事件时,通过浏览器调用回调函数指针指向的回调函数、将操作事件引用或跳转的网页地址写入回调函数的相应参数中,以及通过浏览器嵌入插件解析回调函数并记录解析结果,直至解析结果满足预设结束条件;所述解析结果包括:每次触发的与打开网页相应的操作事件引用或跳转的网页地址,以及多次记录的网页地址之间的递归调用关系。本发明专利技术降低了获取网页地址所需的成本,提高了网页地址获取的效率。

【技术实现步骤摘要】

本专利技术涉及互联网安全技术,尤其涉及一种网页地址的获取方法和获取装置
技术介绍
随着互联网网页制作技术的不断进步,可在同一个网页页面中通过多种方法引入其他网页页面并呈现给用户。网页页面的常用引入方法包括内框(iframe)法、引用 (include)法、浏览器下载(IE download)法、对象(object)等。这些方法写法各不相同, 并且IE等浏览器对这些编程写法的格式要求并不严格,例如对程序中有无双引号、有无空格、前后的标签是否严格匹配等格式无严格要求,IE等浏览器可以识别和处理这些程序, 从而保证了网页页面的兼容性。此外,引用法还支持网页页面的递归嵌套引用,例如在 “ 1 · html ” 中引用 “ 2. html ”,在 2. html ” 中引用 “ 3. html ”,在 “ 3. html ” 中引用 “ 4. html ”,以此类推,层层嵌套即递归调用。IE等浏览器根据网页地址之间的递归调用顺序依次访问相应网页。在实际应用中,如果发现某网站的某网页被植入木马,需要查找到从源网页(如该网站的首页)到目的网页(如感染木马或病毒的网页之间的所有链接,以便及时进行木马告警或查杀等处理。获取网页地址的一种现有技术是关键字查找法。关键字查找法是将网页识别为一个普通的文本文件,先完全下载下来,然后将网页读入程序中,程序中查询各种网页引用和网页跳转的关键字,然后通过关键字定位出要引用或跳转的网页地址。例如在网页 “l.html”中,通过字符串查找关键字“include”,那么就可以根据这个关键字就可以找到该网页要引用的网页地址〈include src = 〃 2.html" >,然后再下载“2. html,,;将“2. html,, 与目的网页地址“4. html”进行比较,当二者不符时,则再重复执行上述步骤,直至找到目的网页地址“4. html”。获取网页地址的另一种现有技术是页面元素法。页面元素法是在加载网页时将网页识别为各种元素,网页的各个标签代表了不同的元素类型,通过所有的跳转类型的元素和引用类型的元素,就能够查找到要引用或跳转的网页地址。例如当读取〈include src ="2.html" >时,程序会自动将其识别为一个引用类型的元素,同时可得到其引用的网页地址为“2. html,,;将“2. html,,与目的网页地址“4. html,,进行比较,当二者不符时,则再重复执行上述步骤,直至找到目的网页地址“4. html”。如上述所述,现有引入网页页面的方法多种多样,编程写法也不统一,这使得如果要获取源网页到目的网页之间递归调用的所有的网页地址(如2. html和3. html),不得不遍历查找所有的关键字或网页元素,这使得现有的关键字查找法和页面元素法存在的以下共同缺陷(1)程序开发和维护成本高当有引入网页页面的新方法出现时,程序是无法立刻自动识别和抓取的,需要重新开发程序添加新的关键字或网页元素类型;(2)错误率高现有引入网页页面的方法缺少规范的编程写法,使得程序无法正确识别采用不规范编程写法引入的网页地址,可能出现漏判和误判的情况,如使原本的引用页面没有找到,而将非引用页面误判为是引入页面;(3)运行速度慢随着新的引入网页页面的新方法的增加,需要遍历的关键字也越来越多,这导致程序处理的速度也越来越慢;此外,由于识别网页元素时,网页所有内容都是加载到内存中的,因此,当网页页面较大时,程序识别速度会变得很慢。
技术实现思路
本专利技术提供一种网页地址的获取方法和获取装置,用以降低获取网页地址所需的成本,提高获取效率。本专利技术提供一种网页地址的获取方法,包括在浏览器启动时,初始化所述浏览器中预先嵌入的浏览器嵌入插件,并在所述浏览器嵌入插件的初始化过程中,向所述浏览器中注册浏览器嵌入插件的回调函数指针;在所述浏览器每次触发与打开网页相应的操作事件时,通过所述浏览器调用所述回调函数指针指向的回调函数、将所述操作事件引用或跳转的网页地址写入所述回调函数的相应参数中,以及通过所述浏览器嵌入插件解析所述回调函数并记录解析结果,直至所述解析结果满足预设结束条件;所述解析结果包括每次触发的与打开网页相应的操作事件引用或跳转的网页地址,以及多次记录的网页地址之间的递归调用关系。本专利技术还提供了一种网页地址的获取装置,包括初始化处理模块,用于在浏览器启动时,初始化所述浏览器中预先嵌入的浏览器嵌入插件,并在所述浏览器嵌入插件的初始化过程中,向所述浏览器中注册浏览器嵌入插件的回调函数指针;网页地址获取模块,用于在所述浏览器每次触发与打开网页相应的操作事件时, 通过所述浏览器调用所述回调函数指针指向的回调函数、将所述操作事件引用或跳转的网页地址写入所述回调函数的相应参数中,并通过所述浏览器嵌入插件解析所述回调函数并记录解析结果,直至所述解析结果满足预设结束条件;所述解析结果包括每次触发的与打开网页相应的操作事件引用或跳转的网页地址,以及多次记录的网页地址之间的递归调用关系。本专利技术提供的网页地址的获取方法和获取装置中,将浏览器嵌入插件嵌入到浏览器内部,通过浏览器嵌入插件直接捕获浏览器需要访问的网页地址,从而不需要识别采用各种网页引入技术编写的程序,因此可降低程序开发和维护成本,并提高了获取网页地址的成功率。此外,由于嵌入浏览器的浏览器嵌入插件占用的内存小,因此运行速度较快,从而提高了网页地址获取的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的网页地址的获取方法流程图;图2为本专利技术实施例二提供的BHO插件获取IE浏览器行为的方法示意图;图3为图2中BHO插件的内容示意图;图4为图2中IE浏览器嵌入BHO插件的示意图;图5为本专利技术实施例三提供的通过在IE浏览器中嵌入BHO插件来获取网页地址的方法流程图;图6为本专利技术应用场景中提供的网络地址递归调用的示例;图7为本专利技术实施例四提供的网页地址的获取装置结构示意图。具体实施例方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术以下实施例的序号仅仅为了描述,不代表实施例的优劣。图1为本专利技术实施例一提供的网页地址的获取方法流程图。如图1所示的方法包括步骤11 在浏览器启动时,初始化所述浏览器中预先嵌入的浏览器嵌入插件,并在所述浏览器嵌入插件的初始化过程中,向所述浏览器中注册浏览器嵌入插件的回调函数指针。浏览器启动时会检查该浏览器注册表中是否包括浏览器嵌入插件,并在浏览器注册表中包括浏览器嵌入插件时,浏览器会自动启动该浏览器嵌入插件,浏览器嵌入插件启动后进行初始化,在浏览器嵌入插件初始化过程中,向浏览器中注册浏览器嵌入插件的回调函数指针。步骤12 在所述本文档来自技高网
...

【技术保护点】
1.一种网页地址的获取方法,其特征在于,包括:在浏览器启动时,初始化所述浏览器中预先嵌入的浏览器嵌入插件,并在所述浏览器嵌入插件的初始化过程中,向所述浏览器中注册浏览器嵌入插件的回调函数指针;在所述浏览器每次触发与打开网页相应的操作事件时,通过所述浏览器调用所述回调函数指针指向的回调函数、将所述操作事件引用或跳转的网页地址写入所述回调函数的相应参数中,以及通过所述浏览器嵌入插件解析所述回调函数并记录解析结果,直至所述解析结果满足预设结束条件;所述解析结果包括:每次触发的与打开网页相应的操作事件引用或跳转的网页地址,以及多次记录的网页地址之间的递归调用关系。

【技术特征摘要】

【专利技术属性】
技术研发人员:高宁邵晴崔福东
申请(专利权)人:北龙中网北京科技有限责任公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1