基于可配置规则的网站数据搜索方法技术

技术编号:13343014 阅读:67 留言:0更新日期:2016-07-13 20:50
本发明专利技术涉及垂直搜索领域,具体说是基于可配置规则的网站数据搜索方法,其按以下步骤进行:为待搜索的网站配置入口规则、链接规则和详情规则;解析入口规则,得到网站的入口url、与入口规则关联的链接规则及访问该网站时的参数;解析上述与入口规则关联的链接规则,得到链接规则语法及与该链接规则相关联的详情规则;解析上述与链接规则相关联的详情规则,得到详情规则语法,从而采集页面上的内容。本发明专利技术可以把开发人员从编写爬虫系统中解放出来,开发人员只需要编写针对不同站点的配置规则便可以实现对一个网站的数据采集,而编写站点规则相比较于直接编写爬虫系统简单得多,同时维护也方便很多,可以为企业大大的节省开发成本和维护成本。

【技术实现步骤摘要】

【技术保护点】
基于可配置规则的网站数据搜索方法,其按以下步骤进行:(1)为待搜索的网站配置入口规则、链接规则和详情规则;(2)解析入口规则,得到网站的入口url、与入口规则关联的链接规则及访问该网站时的参数;(3)解析上述与入口规则关联的链接规则,得到一个用于解析该网站页面的链接规则语法及与该链接规则相关联的详情规则;(4)解析上述与链接规则相关联的详情规则,得到若干个用于采集该网站页面上内容的详情规则语法,从而采集页面上的内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵海兵
申请(专利权)人:湖南中周至尚信息技术有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1