一种模板配置方法及系统技术方案

技术编号:16327175 阅读:237 留言:0更新日期:2017-09-29 19:03
本发明专利技术提供了一种模板配置方法及系统,该方法包括:获取网页的URL地址,根据所述URL地址加载对应的网页;当接收到用户对所述网页触发的选取操作时,提取所述选取操作对应的网页内容;查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式;将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。本发明专利技术解决了现有技术中手工配置模板过程费时费力,而且需要进行重复修正的问题,实现了模板的自动配置,为数据抽取、采集提供了有力的技术支持。

【技术实现步骤摘要】
一种模板配置方法及系统
本专利技术涉及计算机网络
,尤其涉及一种模板配置方法及系统。
技术介绍
数据抽取是数据采集中的一个重要环节,所有采集到的原始网页需要经过数据抽取才能获得有效的数据,如标题、正文等。基于模板的数据抽取是根据特定的网页模板抽取网页内容的技术。模板由抽取表达式并通过XML或者JSON等组织而成。常用的抽取表达式有正则表达式与XPATH。其中,正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。XPATH,是XML路径语言,它是一种用来确定XML文档中某部分的位置的语言。程序通过读取模板,依照模板中的表达式或路径语言即可提取出网页中的所需内容。现有技术中都是采用手工配置模板。但是,由于手工配置模板是一个复杂而又繁琐的工作,不同的网页其结构千差万别,因而需要配置各种不同的模板。因此,在采集网页的种类比较多的时候,手工配置往往成为整个工程的瓶颈所在,费时费力,而且手工配置的模板不可避免会出现纰漏,又没有工具去预览模板抽取结果,导致模板在配置过程中需要进行重复修正。
技术实现思路
鉴于上述问题,本专利技术提出了一种模板配置方法及系统,解决了现有技术中手工配置模板过程费时费力,而且需要进行重复修正的问题,实现了模板的自动配置。根据本专利技术的第一方面,提供了一种模板配置方法,该方法包括:获取网页的URL地址,根据所述URL地址加载对应的网页;当接收到用户对所述网页触发的选取操作时,提取所述选取操作对应的网页内容;查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式;将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。其中,所述查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式,进一步包括:获取所述网页对应的树状结构;逐层遍历所述网页对应的树状结构,查找所述网页节点在所述树状结构中的位置;根据查找到的位置,计算所述网页节点的Xpath路径和/或相对路径;根据所述Xpath路径和/或相对路径生成所述网页内容对应的抽取表达式。其中,所述根据查找到的位置,计算所述网页节点的相对路径,进一步包括:获取所述网页节点的父节点的Xpath路径;根据所述网页节点的Xpath路径和所述网页节点的父节点的Xpath路径计算该网页节点的相对路径。其中,在所述获取网页的URL地址,根据所述URL地址加载对应的网页之后,所述方法还包括:在所述预设模板树中选取需要进行配置节点,将其作为当前配置节点;其中,所述预设模板树包括ROOT节点、列表节点、元素节点、属性节点和文本节点;每一节点采用KEY-VALUE格式;每一节点的VALUE包括type、xpath、pattr和child属性。其中,所述方法进一步包括:采用得到的模板对所述网页进行数据提取,并将数据提取结果进行展示。根据本专利技术的第二方面,提供了一种模板配置系统,该系统包括:加载单元,用于获取网页的URL地址,根据所述URL地址加载对应的网页;确定单元,用于当接收到用户对所述加载单元记载的网页触发的选取操作时,确定所述选取操作对应的网页内容;生成单元,用于查找所述确定单元确定出的网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式;传输单元,用于将所述生成单元生成的抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。其中,所述生成单元,进一步包括:获取模块,用于获取所述网页对应的树状结构;查找模块,用于逐层遍历所述网页对应的树状结构,查找所述网页节点在所述树状结构中的位置;计算模块,用于根据查找到的位置,计算所述网页节点的Xpath路径和/或相对路径;生成模块,用于根据所述Xpath路径和/或相对路径生成所述网页内容对应的抽取表达式。其中,所述计算模块,具体用于获取所述网页节点的父节点的Xpath路径,根据所述网页节点的Xpath路径和所述网页节点的父节点的Xpath路径计算该网页节点的相对路径。其中,所述系统还包括:选取单元,用于在所述获取网页的URL地址,根据所述URL地址加载对应的网页之后,在所述预设模板树中选取需要进行配置节点,将其作为当前配置节点;其中,所述预设模板树包括ROOT节点、列表节点、元素节点、属性节点和文本节点;每一节点采用KEY-VALUE格式;每一节点的VALUE包括type、xpath、pattr和child属性。其中,所述系统还包括:展示单元,用于采用得到的模板对所述网页进行数据提取,并将数据提取结果进行展示。本专利技术的有益效果为:本专利技术提供的模板配置方法及系统,通过URL地址加载对应的网页,根据选取的网页内容对应的网页节点在加载的网页对应的树状结构中的位置,生成网页内容对应的抽取表达式,并将得到的抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。本专利技术解决了现有技术中手工配置模板过程费时费力,而且需要进行重复修正的问题,实现了模板的自动配置,为数据抽取、采集提供了有力的技术支持。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术一个实施例提出的模板配置方法的流程图;图2为本专利技术实施例提出的模板配置方法中步骤S13的细分流程图;图3为本专利技术一个实施例提出的模板配置系统的结构示意图;图4为本专利技术实施例提出的模板配置系统中生成单元的具体结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。需要说明的是,本专利技术提供的模板配置方法及系统,采用B/S(browser/server,浏览器/服务器)架构,服务端采用django实现,WEB界面端采用HTML以及JQUERY实现,模板等数据的存储使用MYSQL数据库。图1示出了本专利技术实施例的模板配置方法的流程图。参照图1,本专利技术实施例提出的模板配置方法,具体包括以下步骤:S11、获取网页的URL地址,根据所述URL地址加载对应的网页。统一资源定位器(UniformResoureLocator,URL)是对可以从互联网上所获取到资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有唯一的URL,它包含的信息能够指出文件的位置以及浏览器对该文件的处理方法。在实际应用中,可通过用户输入的方式实现特定URL地址的获取。系统提供统一的WEB界面,该界面展示有输入框,通过该输入框接收用户输入的特定URL,并对其进行自动加载,得到对应的网页。可理解的,通过用户输入的方式实现特定URL地址的获取方式仅是举例说明,特定URL地址的获取包括多种实现方式,如本文档来自技高网...
一种模板配置方法及系统

【技术保护点】
一种模板配置方法,其特征在于,该方法包括:获取网页的URL地址,根据所述URL地址加载对应的网页;当接收到用户对所述网页触发的选取操作时,提取所述选取操作对应的网页内容;查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式;将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。

【技术特征摘要】
1.一种模板配置方法,其特征在于,该方法包括:获取网页的URL地址,根据所述URL地址加载对应的网页;当接收到用户对所述网页触发的选取操作时,提取所述选取操作对应的网页内容;查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式;将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。2.根据权利要求1所述的方法,其特征在于,所述查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式,进一步包括:获取所述网页对应的树状结构;逐层遍历所述网页对应的树状结构,查找所述网页节点在所述树状结构中的位置;根据查找到的位置,计算所述网页节点的Xpath路径和/或相对路径;根据所述Xpath路径和/或相对路径生成所述网页内容对应的抽取表达式。3.根据权利要求2所述的方法,其特征在于,所述根据查找到的位置,计算所述网页节点的相对路径,进一步包括:获取所述网页节点的父节点的Xpath路径;根据所述网页节点的Xpath路径和所述网页节点的父节点的Xpath路径计算该网页节点的相对路径。4.根据权利要求2或3所述的方法,其特征在于,在所述获取网页的URL地址,根据所述URL地址加载对应的网页之后,所述方法还包括:在所述预设模板树中选取需要进行配置节点,将其作为当前配置节点;其中,所述预设模板树包括ROOT节点、列表节点、元素节点、属性节点和文本节点;每一节点采用KEY-VALUE格式;每一节点的VALUE包括type、xpath、pattr和child属性。5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:采用得到的模板对所述网页进行数据提取,并将数据提取结果进行展示。6.一种模板配置系...

【专利技术属性】
技术研发人员:曹六一张丹杨建武
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1