一种网页要素的自动提取方法、系统及计算机存储介质技术方案

技术编号:20916694 阅读:19 留言:0更新日期:2019-04-20 09:43
本发明专利技术提供一种网页要素的自动提取方法、系统及计算机存储介质,该方法包括:基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和网站版块集合;判断所述网站版块集合在爬虫采集规则库中是否存在提取规则,如果所述爬虫采集规则库中存在所述网站版块集合的提取规则,则提取所述网页的要素;判断所述网页的要素是否提取成功,如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。根据本发明专利技术的方法、系统及计算机存储介质,可以增加提取网页要素以及截图的准确性、灵活性、易用性,为信息编辑人员查阅收集网页信息提供很好的技术支持。

An Automatic Extraction Method, System and Computer Storage Medium for Web Page Elements

The invention provides an automatic extraction method, a system and a computer storage medium for web page elements. The method includes: extracting the URL of the web page based on browser plug-in, acquiring the crawler collection rule base and the web site block set; judging whether the web site block set exists in the crawler collection rule base or not, if the web site version exists in the crawler collection rule base. The extraction rule of block set extracts the elements of the web page, determines whether the elements of the web page are extracted successfully, and fills the extracted content into the corresponding text area if the elements of the web page are extracted successfully. According to the method, system and computer storage medium according to the present invention, the accuracy, flexibility and ease of use of extracting web page elements and screenshots can be increased, and good technical support can be provided for information editors to consult and collect web page information.

【技术实现步骤摘要】
一种网页要素的自动提取方法、系统及计算机存储介质
本申请涉及计算机
,特别涉及网页数据处理的方法及系统。
技术介绍
互联网发展至今,网站种类繁多,不同网站的网页加载排版方式各式各样,同一个网站不同版块的网页加载排版方式也可能各不相同。这些差异化给网站信息编辑人员在提取网页的标题、内容、发布人员、发布时间等要素信息和进行网页截图时,带来了诸多不便,只能进行复制粘贴在加辅助截图工具的手工方式进行繁琐的重复操作。针对单页面抽取网页要素和截图的繁琐手工操作问题,目前也有相应的技术手段去辅助处理,比如使用爬虫采集机制自动采集网页要素和模拟浏览器行为加载网页页面进行截图的技术手段实现。然而目前这种技术手段还存在着一些问题,需要进一步改进和完善。比如遇到需要登录才能访问的站点,那么采集网页的要素和截图就会失败。模拟浏览器行为加载网页截图也会存在截图页面信息加载不全,无法灵活的指定网页截图区域。同时单纯依靠爬虫采集规则进行各站点网页要素提取,维护成本高。抽取的质量也和采集规则的运维有很大的依赖关系。尤其针对网页模拟浏览器行为进行网页截图,会由于网络等问题经常出现截图截不全,而且也不能对网页的特定区域进行截图影响客户的操作。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种网页要素的自动提取方法、系统及计算机存储介质,以解决依靠爬虫自动采集网页要素技术和模拟浏览器行为进行网页截图技术存在的网页要素信息提取不全和网页截图失败问题。根据本专利技术一方面,提供了一种网页要素的自动提取方法,所述方法包括:基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和网站版块集合;判断所述网站版块集合在爬虫采集规则库中是否存在提取规则,如果所述爬虫采集规则库中存在所述网站版块集合的提取规则,则提取所述网页的要素;如果所述爬虫采集规则库中不存在所述网站版块集合的提取规则,则根据用户选中指定区域的信息内容标示为网页要素,并形成对应的提取规则;和/或,运维处理人员在运维处理中对失败的提取规则进行二次处理;判断所述网页的要素是否提取成功,如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。示例性地,所述获取爬虫采集规则库和网站版块集合包括:对所述网页的URL进行URLEncode编码后调用提取后端爬虫采集规则库接口;当所述提取后端爬虫采集规则库接口接收到所述网页的URL的参数则进行URLDecode解码,并对所述网页的URL做二次处理,从站点库中匹配出对应的网站版块集合。示例性地,所述提取所述网页的要素包括:返回对应网页的提取规则到所述浏览器插件,所述浏览器插件利用所述提取规则提取出所述网页的要素。示例性地,所述提取出所述网页的要素采用Xpath提取。示例性地,所述方法还包括:如果所述网页的要素提取不成功,则将对应的浏览器插件规则存入爬虫采集规则提取失败库;和/或,根据用户选中指定区域的信息内容标示为网页要素,并形成对应的提取规则。示例性地,所述方法还包括:将对应的浏览器插件规则存入爬虫采集规则提取失败库后,运维处理人员在运维处理中对失败的提取规则进行二次处理。示例性地,所述方法还包括:利用根据用户选中指定区域的信息内容标示为网页要素所形成对应的提取规则,和/或,运维处理人员在运维处理中对失败的提取规则进行二次处理之后的规则,更新所述爬虫采集规则库。示例性地,所述方法还包括:将提取的内容填充到对应的文本区域之后,基于浏览器的网页截屏接口对网页截图进行二次封装。示例性地,所述方法还包括:存储所述提取的所述网页要素和/或所述网页截图。根据本专利技术另一方面,提供了一种网页要素的自动提取系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。根据本专利技术另一方面,提供了一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时实现上述方法的步骤。根据本专利技术实施例的网页要素的自动提取方法、系统和计算机存储介质,通过浏览器开放的接口标准和爬虫采集共享的网页提取规则从而实现网页要素自动提取及自定义网页截图,增加提取网页要素以及截图的准确性、灵活性、易用性,为信息编辑人员查阅收集网页信息提供很好的技术支持;同时在方便用户使用的同时也可以让用户参与到爬虫采集规则库的运维中来,形成良性循环。附图说明通过结合附图对本专利技术实施例进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1是用于实现根据本专利技术实施例的一种网页要素的自动提取方法的示意流程图;图2是用于实现根据本专利技术实施例的一种网页要素的自动提取方法示例的示意流程图。具体实施方式为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的本专利技术实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。首先,参考图1来描述用于本专利技术实施例的一种网页要素的自动提取方法的示意流程图,所述方法100包括:首先,在步骤110中,基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和网站版块集合;在步骤120中,判断所述网站版块集合在爬虫采集规则库中是否存在提取规则,如果所述爬虫采集规则库中存在所述网站版块集合的提取规则,则提取所述网页的要素;如果所述爬虫采集规则库中不存在所述网站版块集合的提取规则,则根据用户选中指定区域的信息内容标示为网页要素,并形成对应的提取规则;和/或,运维处理人员在运维处理中对失败的提取规则进行二次处理;在步骤130中,判断所述网页的要素是否提取成功,如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。根据本专利技术提供的方法,可以对同网站不同版块的网页要素提取多规则智能匹配,解决了传统爬虫提取规则,在同网站或者网站版块下通常只适用1个提取规则的问题,为信息编辑人员查阅收集网页信息提供很好的技术支持。此外,将提取的内容填充到对应的文本区域为用户提供了良好的二次编辑操作的基础。根据本专利技术实施例,步骤S110可以进一步包括:所述获取爬虫采集规则库和网站版块集合包括:对所述网页的URL进行URLEncode编码后调用提取后端爬虫采集规则库接口;当所述提取后端爬虫采集规则库接口接收到所述网页的URL的参数则进行URLDecode解码,并对所述网页的URL做二次处理,从站点库中匹配出对应的网站版块集合。示例性地,所述提取所述网页的要素包括:返回对应网页的提取规则到所述浏览器插件,所述浏览器插件利用所述提取规则提取出所述网页的要素。示例性地,所述提取出所述网页的要素采用Xpath提取。其中,自动提取网页要素的规则使用xpath规则库,该规则库可以和爬虫采集的规则库共享公用,避免了网页要素提取规则的重复维护操作。根据本专利技术实施例,步骤S130可以进一步包括:如果所述网页的要素提取不成本文档来自技高网...

【技术保护点】
1.一种网页要素的自动提取方法,其特征在于,所述方法包括:基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和网站版块集合;判断所述网站版块集合在爬虫采集规则库中是否存在提取规则,如果所述爬虫采集规则库中存在所述网站版块集合的提取规则,则提取所述网页的要素;如果所述爬虫采集规则库中不存在所述网站版块集合的提取规则,则根据用户选中指定区域的信息内容标示为网页要素,并形成对应的提取规则;和/或,运维处理人员在运维处理中对失败的提取规则进行二次处理;判断所述网页的要素是否提取成功,如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。

【技术特征摘要】
1.一种网页要素的自动提取方法,其特征在于,所述方法包括:基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和网站版块集合;判断所述网站版块集合在爬虫采集规则库中是否存在提取规则,如果所述爬虫采集规则库中存在所述网站版块集合的提取规则,则提取所述网页的要素;如果所述爬虫采集规则库中不存在所述网站版块集合的提取规则,则根据用户选中指定区域的信息内容标示为网页要素,并形成对应的提取规则;和/或,运维处理人员在运维处理中对失败的提取规则进行二次处理;判断所述网页的要素是否提取成功,如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。2.如权利要求1所述的方法,其特征在于,所述获取爬虫采集规则库和网站版块集合包括:对所述网页的URL进行URLEncode编码后调用提取后端爬虫采集规则库接口;当所述提取后端爬虫采集规则库接口接收到所述网页的URL的参数则进行URLDecode解码,并对所述网页的URL做二次处理,从站点库中匹配出对应的网站版块集合。3.如权利要求2所述的方法,其特征在于,所述提取所述网页的要素包括:返回对应网页的提取规则到所述浏览器插件,所述浏览器插件利用所述提取规则提取出所述网页的要素。4.如权利要求3所述的方法,其特征在于,所述提取出所述网页的要素采用Xpath提取。5.如权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:朱振水栾江霞章正道许剑锋林志扬
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1