当前位置: 首页 > 专利查询>山东大学专利>正文

一种定制数据爬取工作流的方法及系统技术方案

技术编号:15895346 阅读:81 留言:0更新日期:2017-07-28 19:50
本发明专利技术公开了一种定制数据爬取工作流的方法及系统,其中,该定制数据爬取工作流的方法包括:配置网页的参数及存储路径,生成定制网页并同步存储至XML文件中;采用DOM方式来解析XML文件并生成爬虫树;编译运行爬虫树,进而抓取出相应网页数据。本发明专利技术在数据抽取的通用性、灵活性方面的得到巨大改进,能够让用户在短时间内准确的筛选出需要的内容。

Method and system for customizing data crawling workflow

The invention discloses a method for customizing data climbing workflow and system, wherein, the custom data including: climbing methods workflow parameters and storage path configuration page, creating customized web pages and synchronous storage to XML file; using DOM to parse the XML file and generate the crawler tree; compile and run the crawler tree. Then grab the corresponding web page data. The invention has greatly improved the versatility and flexibility of data extraction, allowing the user to accurately screen the required content in a short time.

【技术实现步骤摘要】
一种定制数据爬取工作流的方法及系统
本专利技术属于网页数据处理领域,尤其涉及一种定制数据爬取工作流的方法及系统。
技术介绍
随着Internet的迅速发展,以及B/S架构应用的普及,海量的Web信息资源数以百万、千万计地产生。这使得在这些海量信息中获取到用户所需的有用信息难度异常的大。为了快速获取到有用信息,快速爬虫Crawler的微型搜索引擎成为人们用于特定信息检索的必备工具。然而,随着人们对信息的多样化需求,以及数据分析系统对数据的内容和格式的要求,Crawler获取的信息全而不精、精而不通的特点,已经无法满足人们的需要。用户越来越感觉到很难在短时间内按照用户所需的工作流程准确筛选出需要的内容,很难迅速地找到所需要的信息。因此,Crawler服务需要细化,需要更加通用的工作流程、更加有效的定制化服务。因此,很多基于不同领域的垂直爬虫应运而生,以数据主题相关性强、结构化程度高的特点,解决了用户对特定领域垂直数据的抽取问题,在电子商务、房产领域、教育新闻以及专利检索等领域有所应用。这类爬虫可以让用户在某一垂直领域,以流程化步骤的方式执行爬取工作。但是,目前的垂直爬虫存在严重不足。(1本文档来自技高网...
一种定制数据爬取工作流的方法及系统

【技术保护点】
一种定制数据爬取工作流的方法,其特征在于,包括:配置网页的参数及存储路径,生成定制网页并同步存储至XML文件中;采用DOM方式来解析XML文件并生成爬虫树;编译运行爬虫树,进而抓取出相应网页数据。

【技术特征摘要】
1.一种定制数据爬取工作流的方法,其特征在于,包括:配置网页的参数及存储路径,生成定制网页并同步存储至XML文件中;采用DOM方式来解析XML文件并生成爬虫树;编译运行爬虫树,进而抓取出相应网页数据。2.如权利要求1所述的一种定制数据爬取工作流的方法,其特征在于,该方法还包括:根据网页的存储路径,构建与存储路径中存储位置相匹配的步骤节点。3.如权利要求2所述的一种定制数据爬取工作流的方法,其特征在于,所述步骤节点中存储的信息包括步骤节点属性和执行动作信息;所述步骤节点属性包括步骤父节点和步骤子节点;执行动作信息包括下钻步骤和存盘步骤。4.如权利要求3所述的一种定制数据爬取工作流的方法,其特征在于,构建与存储路径中存储位置相匹配的步骤节点的具体过程包括:将网页的存储路径中的初始存储位置设置为步骤父节点;按照网页的存储路径中存储位置的变化,依次顺序设置步骤父节点的步骤子节点以及步骤子节点的步骤子节点,同时配置相应步骤节点的执行动作信息。5.如权利要求3所述的一种定制数据爬取工作流的方法,其特征在于,配置的网页参数包括图片和文字,所述存盘步骤包括图片存盘步骤和文字存盘步骤;当步骤子节点内的执行动作信息为存盘步骤,则根据配置的网页参数,构建相应步骤子节点的兄弟节点来执行图片存盘步骤或文字存盘步骤。6.如权利要求1所述的一种定制数据爬取工作流的方法,其特征在于,在编译运行爬虫树的过程中,按照深度优先搜索顺序来遍历爬虫树,最终抓取出相应网页数据;优选地,当抓取出网页数据失败时,间隔预设时间后重新再抓取,记录抓取次数直至预设最多次数值;若仍然失败,任务失败,则存...

【专利技术属性】
技术研发人员:郭伟宋伟凤于富强鹿旭东崔立真
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1