The invention provides an automatic extraction method, a system and a computer storage medium for web page elements. The method includes: extracting the URL of the web page based on browser plug-in, acquiring the crawler collection rule base and the web site block set; judging whether the web site block set exists in the crawler collection rule base or not, if the web site version exists in the crawler collection rule base. The extraction rule of block set extracts the elements of the web page, determines whether the elements of the web page are extracted successfully, and fills the extracted content into the corresponding text area if the elements of the web page are extracted successfully. According to the method, system and computer storage medium according to the present invention, the accuracy, flexibility and ease of use of extracting web page elements and screenshots can be increased, and good technical support can be provided for information editors to consult and collect web page information.
【技术实现步骤摘要】
一种网页要素的自动提取方法、系统及计算机存储介质
本申请涉及计算机
,特别涉及网页数据处理的方法及系统。
技术介绍
互联网发展至今,网站种类繁多,不同网站的网页加载排版方式各式各样,同一个网站不同版块的网页加载排版方式也可能各不相同。这些差异化给网站信息编辑人员在提取网页的标题、内容、发布人员、发布时间等要素信息和进行网页截图时,带来了诸多不便,只能进行复制粘贴在加辅助截图工具的手工方式进行繁琐的重复操作。针对单页面抽取网页要素和截图的繁琐手工操作问题,目前也有相应的技术手段去辅助处理,比如使用爬虫采集机制自动采集网页要素和模拟浏览器行为加载网页页面进行截图的技术手段实现。然而目前这种技术手段还存在着一些问题,需要进一步改进和完善。比如遇到需要登录才能访问的站点,那么采集网页的要素和截图就会失败。模拟浏览器行为加载网页截图也会存在截图页面信息加载不全,无法灵活的指定网页截图区域。同时单纯依靠爬虫采集规则进行各站点网页要素提取,维护成本高。抽取的质量也和采集规则的运维有很大的依赖关系。尤其针对网页模拟浏览器行为进行网页截图,会由于网络等问题经常出现截图截不全,而且也不能对网页的特定区域进行截图影响客户的操作。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种网页要素的自动提取方法、系统及计算机存储介质,以解决依靠爬虫自动采集网页要素技术和模拟浏览器行为进行网页截图技术存在的网页要素信息提取不全和网页截图失败问题。根据本专利技术一方面,提供了一种网页要素的自动提取方法,所述方法包括:基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和 ...
【技术保护点】
1.一种网页要素的自动提取方法,其特征在于,所述方法包括:基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和网站版块集合;判断所述网站版块集合在爬虫采集规则库中是否存在提取规则,如果所述爬虫采集规则库中存在所述网站版块集合的提取规则,则提取所述网页的要素;如果所述爬虫采集规则库中不存在所述网站版块集合的提取规则,则根据用户选中指定区域的信息内容标示为网页要素,并形成对应的提取规则;和/或,运维处理人员在运维处理中对失败的提取规则进行二次处理;判断所述网页的要素是否提取成功,如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。
【技术特征摘要】
1.一种网页要素的自动提取方法,其特征在于,所述方法包括:基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和网站版块集合;判断所述网站版块集合在爬虫采集规则库中是否存在提取规则,如果所述爬虫采集规则库中存在所述网站版块集合的提取规则,则提取所述网页的要素;如果所述爬虫采集规则库中不存在所述网站版块集合的提取规则,则根据用户选中指定区域的信息内容标示为网页要素,并形成对应的提取规则;和/或,运维处理人员在运维处理中对失败的提取规则进行二次处理;判断所述网页的要素是否提取成功,如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。2.如权利要求1所述的方法,其特征在于,所述获取爬虫采集规则库和网站版块集合包括:对所述网页的URL进行URLEncode编码后调用提取后端爬虫采集规则库接口;当所述提取后端爬虫采集规则库接口接收到所述网页的URL的参数则进行URLDecode解码,并对所述网页的URL做二次处理,从站点库中匹配出对应的网站版块集合。3.如权利要求2所述的方法,其特征在于,所述提取所述网页的要素包括:返回对应网页的提取规则到所述浏览器插件,所述浏览器插件利用所述提取规则提取出所述网页的要素。4.如权利要求3所述的方法,其特征在于,所述提取出所述网页的要素采用Xpath提取。5.如权利要求1所述的方法,其特...
【专利技术属性】
技术研发人员:朱振水,栾江霞,章正道,许剑锋,林志扬,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。