一种数据维护方法及系统技术方案

技术编号:8655881 阅读:139 留言:0更新日期:2013-05-01 23:32
本发明专利技术适用于基于网络爬虫的数据维护领域,提供了一种数据维护方法及系统。所述方法包括:A、提取指定地址的页面内容;B、以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式;C、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志;D、将生成的警告日志发送给开发人员。本发明专利技术实施例能够使开发人员及时获取布局发生变化的页面内容。

【技术实现步骤摘要】
一种数据维护方法及系统
本专利技术属于基于网络爬虫的数据维护领域,尤其涉及一种数据维护方法及系统。
技术介绍
在当前信息空前爆炸的时代,人们不再担心信息的匮乏,而是为筛选有用的信息付出大量的代价。现有的数据聚合方法有:采用网络爬虫技术实现的聚合方法。下面具体以网络爬虫技术的其中一种----Web-Harvest为例进行说明,Web-Harvest是一个Java开源Web数据抽取工具,它能够收集指定的Web页面并从这些页面中提取有用的数据。其提取数据的过程主要是通过基于可扩展标记语言(ExtensibleMarkupLanguage,xml)配置文件的方式来进行定义的,每个xml配置文件描述了提取数据的一系列任务,而这些任务又是以一种链式的方式执行,所以一个任务返回结果可以当作另外一个任务的输入内容,这可以从下面的代码看出:其中,上述的xpath为xml路径语言(xmlPathLanguage)。当Web-Harverst执行上述代码提取视频页面播放地址时,其步骤为:1、http处理器发送http请求,并从指定的页面地址(UniversalResourceLocator,url)上面下载页面内容;2、http-to-xml处理器将已下载的页面上的一些超文本标记语言(HypertextMarkupLanguage,HTML)清除,以产生可扩展超文本置标语言(ExtensibleHyperTextMarkupLanguage,XHTML);3、xpath处理器根据其表达式expression的序列从xml寻找符合的内容。但如果网络爬虫技术聚合的数据没有得到及时维护,则很可能聚合到错误的数据,原因如下:由于采用网络爬虫技术实现的数据聚合方法中,每个聚合过程都被定义在一个或多个基于xml的配置文件中,因此当页面的布局排版或者样式发生变化时,根据原来表达式提取的数据将为空或者是不符合预期。而由于通过网络爬虫技术实现的数据聚合方法生成的配置文件又较多,开发人员难以实时关注网站各个页面布局排版的变化,从而难以及时获知需调整的配置文件。
技术实现思路
本专利技术实施例提供了一种数据维护方法及系统,旨在解决现有开发人员难以实时关注网站各个页面布局排版的变化,从而难以及时获知需调整的配置文件的问题。本专利技术实施例是这样实现的,一种数据维护方法,所述方法包括下述步骤:A、提取指定地址的页面内容;B、以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式;C、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志;D、将生成的警告日志发送给开发人员。本专利技术实施例的另一目的在于提供一种数据维护系统,所述数据聚合系统包括:页面内容提取单元,用于提取指定地址的页面内容;页面内容监控单元,用于以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式;日志生成单元,用于在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志;页面内容预警单元,用于将生成的警告日志发送给开发人员。本专利技术实施例中,由于开发人员根据接收的预警日志能够获知哪些页面内容发生改变,因此开发人员可及时获知哪些配置文件需要进行调整。附图说明图1是本专利技术第一实施例提供的一种数据维护方法的流程图;图2是本专利技术第一实施例提供的一种数据维护系统的结构图;图3是本专利技术第二实施例提供的另一种数据维护系统的结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例中,使用预设的监控器监控提取的页面内容,在页面内容的格式不符合所述预设的监控器定义的有效页面内容格式时,生成对应的预警日志,并将生成的预警日志发送给开发人员。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。实施例一:图1示出了本专利技术第一实施例提供的一种数据维护方法的流程图,详述如下:步骤S11、提取指定地址的页面内容。该步骤中,可使用网络爬虫技术提取指定地址的页面内容,如使用Web-Harvest技术提取。在使用网络爬虫技术提取页面内容之前,需要预先在可扩展标记语言路径语言(ExtensibleMarkupLanguagePathLanguage,xpath)定义器中扩展定义以下3个属性:(1)、命令(required)属性,该required用于选择是否监控所述xpath抓取的页面内容,当required为真(true)时,定义xpath抓取的内容不能为空,为空时定义系统生成一条为空的日志;当required为假(false)时,不监控xpath抓取的页面内容。(2)、监控器(validator)属性,该validator用于监控xpath抓取的页面内容。(3)、页面地址(UniversalResourceLocator,url)属性,该url用于记录提取的页面地址,添加该url属性有利于提高维护人员排查问题的速度。其中,使用网络爬虫技术提取页面内容的步骤具体为:A1、网络爬虫的http处理器与指定地址建立通信连接,并从所述指定地址下载相应的页面内容,所述页面内容使用超文本标记语言HTML表示。A2、网络爬虫的http-to-xml处理器以所述HTML表示的页面内容为依据,生成以可扩展超文本置标语言XHTML表示的页面内容。该步骤中,将已下载的使用HTML表示的页面上的一些HTML标签清除,以得到使用XHTML表示的页面内容。A3、网络爬虫的xpath处理器将所述XHTML表示的页面内容转换为使用xml表示的页面内容,并从使用xml表示的页面内容中提取需监控的页面内容。步骤S12、以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式。其中,预定义(预设)的validator定义了有效的页面内容格式,该validator可为多个,多个validator组成了一个监控器集合(validators)。步骤S13、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志。该步骤中,在判断出提取的页面内容的格式与预设的监控器定义的有效的页面内容格式不相同时,生成对应的警告日志。步骤S14、将生成的警告日志发送给开发人员。该步骤中,将生成的警告日志发送给开发人员(或网络管理员等),以便开发人员接收到警告日志后,能够及时获知页面布局排版变化的配置文件。本专利技术实施例中,使用预设的监控器监控提取的页面内容,在页面内容的格式不符合所述预设的监控器定义的有效页面内容格式时,生成对应的预警日志,并将生成的预警日志发送给开发人员。由于开发人员根据接收的预警日志能够获知哪些页面内容发生改变,因此开发人员可及时获知哪些配置文件需要进行调整,同时,由于无需开发人员时刻关注网站各个页面布局排版的变化,因此也节约了大量的时间。为了清楚获知执行步骤S11:提取指定地址的页面内容时是否发生异常,本专利技术实施例提供的数据维护方法在步骤S11之后,包括下述步骤:判断提取指定地址的页面内容时是否发生提取异常,在发生提取异常时生成一条错误日志。该步骤本文档来自技高网
...
一种数据维护方法及系统

【技术保护点】
一种数据维护方法,其特征在于,所述方法包括下述步骤:A、提取指定地址的页面内容;B、以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式;C、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志;D、将生成的警告日志发送给开发人员。

【技术特征摘要】
1.一种数据维护方法,其特征在于,所述方法包括下述步骤:A、提取指定地址的页面内容;B、以预设的多个监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式;所述预设的监控器定义的有效的页面内容格式包括以下至少一种:有效的时间格式、有效的地址格式、有效的数字格式、有效的字符串格式;C、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志;D、将生成的警告日志发送给开发人员。2.如权利要求1所述的数据聚合方法,其特征在于,在步骤A之后,包括下述步骤:判断提取指定地址的页面内容时是否发生提取异常,在发生提取异常时生成一条错误日志。3.如权利要求1所述的数据聚合方法,其特征在于,在步骤A之后,包括下述步骤:根据预先设定的required属性值判断是否监控提取的页面内容,在监控提取的页面内容时,判断监控的页面内容是否为空,若监控的页面内容为空,生成一条提取为空的日志并发送给开发人员。4.如权利要求3所述的数据聚合方法,其特征在于,在监控的页面内容不为空时,执行步骤B;所述步骤B具体包括:将提取的页面内容的格式与预设的监控器定义的有效的页面内容格式比较,以判断所述提取的页面内容的格式与预设的监控器定义的有效的页面内容格式是否相符合;所述预设的监控器定义的有效的页面内容格式包括以下至少一种:有效的时间格式、有效的地址格式、有效的数字格式、有效的字符串格式。5.如权利要求1所述的数据聚合方法,其特征在于,所述步骤D具体包括:通过预先配置的邮件服务器、邮件服务器用户名、邮件服务器用户密码、邮件服务器邮件默认标题将生成的警告日志发送给开发人员。6.如权利要求1所述的数据聚合方法,其特征在于,在步骤D之后,包括步骤:接收开发人员发出的指令,根据接收的指令执行对应的操作,所述开发人员发出的指令包括配置文件查找指令和配置文件修改指令。7.一种数据维护系统,其特征在于,所述数据维护系统包括:页面内容提取单元,用于提取指定地址的页面内容;页面内容...

【专利技术属性】
技术研发人员:庄为亮
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1