一种站点信息解析系统技术方案

技术编号:6111006 阅读:215 留言:0更新日期:2012-04-11 18:40
本申请公开了一种站点信息解析系统,包括至少一台应用服务器以及中心缓存服务器;所述应用服务器用于接收用户提交的网页链接,根据本地内存中的与所述网页链接相对应的站点解析脚本,对所述网页链接进行信息解析;其中,本地内存中站点解析脚本,是根据本地的站点脚本文件或者从所述中心缓存服务器获取的站点脚本文件加载生成;所述中心缓存服务器用于接收应用服务器上传的站点脚本文件,将站点脚本文件下发至其他应用服务器;还用于接收用户对站点脚本文件的管理操作。应用本申请所提供的站点信息解析系统,可以使得对站点信息的解析满足高并发以及分布式网络环境的需求。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本申请涉及互联网
,特别是涉及一种站点信息解析系统
技术介绍
随着互联网包含的信息资源数量及种类的日益增多,对站点信息的即时解析已经 成为一种普遍需求。例如,对于一些分享网站而言,用户可以将自己准备推荐给其他用户的 视频或音频网页链接提交给网站系统。为了提高用户感受,网站系统所要完成的,并不只是 简单地把网页链接发布出来,而是根据这些网页链接解析出实际的视频或音频内容,使得 用户能够在本地网站对这些视频或音频内容进行实时播放。在具体的操作中,对于媒体链接信息的解析的实现是比较复杂的。首先,极少数站 点会提供外部调用接口,调用参数也未必能在原始链接中体现,因此难以直接从链接地址 中取得参数调用。其次,当前的网页内容都非常丰富,信息干扰严重,用正则表达式或字符 串匹配的方式获取信息难度极大,精确度和可靠性都不高,而且开发调试困难,对于关键信 息JavaScript动态化的站点页面,基本上没有办法解析。Web-Harvest是一种开源的脚本解析技术,它可以将复杂的解析逻辑独立到脚本 文件中执行,支持多种检索方式和JavaScript的处理,应用该技术,可以有效提高站点信 息解析的准确率。但是,在使用Web-Harvest进行解析之前,加载和初始化脚本文件会消耗 大量的时间,因此该技术主要应用于网页爬虫等即时性要求较低的系统,无法直接用于高 并发的网络环境。而且,在服务集群等分布式网络环境下,也难以对脚本文件进行统一的维 护。
技术实现思路
为解决上述技术问题,本申请实施例提供一种站点信息解析系统,以提高站点信 息解析的效率,并且实现对脚本文件的统一维护。技术方案如下一种站点信息解析系统,包括至少一台应用服务器以及中心缓存服务器;所述应用服务器,用于接收用户提交的网页链接,根据本地内存中的与所述网页 链接相对应的站点解析脚本,对所述网页链接进行信息解析;其中,本地内存中站点解析 脚本是根据本地的站点脚本文件或者从所述中心缓存服务器获取的站点脚本文件加载生 成;所述中心缓存服务器,用于接收应用服务器上传的站点脚本文件,将站点脚本文 件下发至其他应用服务器;还用于接收用户对站点脚本文件的管理操作。本申请实施例所提供的站点信息解析系统,应用服务器将站点解析脚本加载于内 存中,避免对脚本文件的重复加载,提高对站点信息解析的处理效率,满足高并发的网络环 境需求。当需要对解析脚本进行维护时,系统管理员不需要分别对每台应用服务器进行操 作,而是可以直接在中心缓存服务器上统一对脚本文件新增、修改、删除等维护操作,与中 心缓存服务器相连接的各应用服务器根据解析需要,从中心缓存获取最新的解析脚本文件,或者与中心缓存服务器进行解析脚本的同步,从而使得脚本文件的维护管理满足分布 式网络环境的需求。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他 的附图。图1为本申请实施例站点信息解析系统的结构示意图;图2为本申请实施例应用服务器的结构示意图;图3为本申请实施例应用服务器的解析脚本获取单元的结构示意图;图4为本申请实施例应用服务器的解析脚本获取单元的另一种结构示意图;图5为本申请实施例中心缓存服务器的结构示意图;图6为本申请实施例中心缓存服务器的解析脚本获取单元的结构示意图;图7为本申请实施例解析脚本下发单元的结构示意图;图8为本申请实施例站点信息解析方法的流程图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实 施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施 例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通 技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。首先对本申请实施例所提供的站点信息解析系统进行说明,参见图1所示该系 统包括至少一台应用服务器100以及中心缓存服务器200。所述应用服务器100,用于接收用户提交的网页链接,根据本地内存中的与所述网 页链接相对应的站点解析脚本,对所述网页链接进行信息解析;其中,本地内存中的站点解 析脚本是根据本地的站点脚本文件或者从所述中心缓存服务器200获取的站点脚本文件 加载生成;所述中心缓存服务器200,用于接收应用服务器100上传的站点脚本文件,将站点 脚本文件下发至其他应用服务器;还用于接收用户对站点脚本文件的管理操作。参见图2所示,所述应用服务器100可以包括链接接收单元110,用于接收用户提交的网页链接;解析脚本获取单元120,用于从本地内存获取与所述网页链接相对应的站点解析 脚本;解析单元130,用于根据所获取的站点解析脚本,对所述网页链接进行信息解析。其中,所述解析脚本获取单元120,可以根据所述网页链接中的站点域名,获取与 所述网页链接相对应的站点解析脚本。参见图3所示,所述解析脚本获取单元120,具体可以包括查找子单元121,用于在本地内存查找与所述网页链接相对应的站点解析脚本;第一获取子单元122,用于在所述查找子单元121无法查找到与所述网页链接相对应的站点解析脚本时,从所述中心缓存服务器200获取站点解析脚本文件,将所获取的 站点解析脚本文件内容加载于内存中并向所述查找子单元121反馈结果。同样参见图3所示,所述解析脚本获取单元120,还可以包括第二获取子单元123,用于在所述第一获取子单元122无法从所述中心缓存服务 器200获取站点解析脚本文件时,在本地文件系统查找站点解析脚本文件、将查找到的解 析脚本文件的内容加载至内存,并向所述查找子单元121反馈结果。参见图4所示,所述解析脚本获取单元120,还可以包括同步子单元124,用于在所述查找子单元121查找到与所述网页链接相对应的站 点解析脚本后,检查本地内存中的站点解析脚本是否与中心缓存服务器200中的站点解析 脚本文件的更新时间一致,如果否,则对应用服务器100与中心缓存服务器200中的站点解 析脚本进行同步。同样参见图4所示,所述解析脚本获取单元120,还可以包括脚本文件上传子单元125,用于在所述第二获取子单元123将本地解析脚本文件 的内容加载至内存后,将所述脚本文件上传至所述中心缓存服务器200。参见图5所示,所述中心缓存服务器200,可以包括脚本文件接收单元210,用于接收应用服务器上传的站点脚本文件;脚本文件下发单元220,用于将站点脚本文件下发至应用服务器;脚本文件管理单元230,用于保存站点脚本文件以及接收用户对站点脚本文件的 管理操作。参见图6所示,所述脚本文件管理单元230,具体可以包括存储子单元231,用于保存站点解析脚本文件;管理接口子单元232,用于接收用户对所述站点解析脚本文件的新增、修改和/或 删除操作。参见图7所示,所述脚本文件下发单元220,具体可以包括请求接收子单元221,用于接收应用服务器100发送的解析脚本获取请求;查找子单元222,用于根据所述解析脚本获取请求,在本地查找相应的站点解析脚 本文件;请求响应子单元223,用于在所述查找子单元222查找本文档来自技高网
...

【技术保护点】
一种站点信息解析系统,其特征在于,包括至少一台应用服务器以及中心缓存服务器;所述应用服务器,用于接收用户提交的网页链接,根据本地内存中的与所述网页链接相对应的站点解析脚本,对所述网页链接进行信息解析;其中,本地内存中站点解析脚本是根据本地的站点脚本文件或者从所述中心缓存服务器获取的站点脚本文件加载生成;所述中心缓存服务器,用于接收应用服务器上传的站点脚本文件,将站点脚本文件下发至其他应用服务器;还用于接收用户对站点脚本文件的管理操作。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕昊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:实用新型
国别省市:KY[开曼群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1