一种基于模板的自适应Web页面数据抽取方法及系统技术方案

技术编号：22594301 阅读：39 留言：0更新日期：2019-11-20 10:53

本发明专利技术公开了一种基于模板的自适应Web页面数据抽取方法及系统，所述方法包括：步骤1)建立包含若干个模板的数据抽取模板库；步骤2)抓取Web页面的HTML源代码，构建网页DOM树；步骤3)提取Web页面URL，与数据抽取模板库中的模板依次进行匹配，如果全部匹配成功，则选择匹配度最高的模板作为最优数据抽取模板，转入步骤5)；否则，进入步骤4)；步骤4)根据匹配失败的数据重新制定新的模板，加入数据抽取模板库，转入步骤3)；步骤5)根据最优数据抽取模板进行数据抽取，如果数据抽取完全成功，数据抽取结束；否则，进入步骤6)；步骤6)对最优数据抽取模板进行自适应修改后进行数据抽取。该方法能够减少数据抽取过程中的人工干预。

A template based adaptive web page data extraction method and system

The invention discloses a template based adaptive web page data extraction method and system. The method comprises the following steps: 1) establishing a data extraction template library including several templates; 2) grabbing the HTML source code of the web page and constructing the DOM tree of the web page; 3) extracting the web page URL and matching with the templates in the data extraction template library successively. If all the matching is successful, then Select the template with the highest matching degree as the optimal data extraction template, and turn to step 5); otherwise, go to step 4); step 4) make a new template according to the data that fails to match, add the data extraction template library, and turn to step 3); step 5) extract the data according to the optimal data extraction template, and if the data extraction is completely successful, the data extraction is finished; otherwise, go to step 5 6); step 6) adaptively modify the optimal data extraction template to extract data. This method can reduce the human intervention in the process of data extraction.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模板的自适应Web页面数据抽取方法及系统
本专利技术涉及Web页面自适应的数据抽取开发
，特别涉及一种基于模板的自适应Web页面数据抽取方法及系统。
技术介绍
Web数据抽取是Web数据挖掘工作中的一步重要的过程。Web数据抽取就是将Web页面上半结构化的数据按照一定的方法抽取出来，保存为结构化格式，如保存为XML文件或者存储到数据库中等。传统的Web数据抽取方法大多是针对某一类特定信息源的数据抽取，主要由一系列预先定义的抽取规则以及这些规则的执行代码组成，并没有充分利用页面数据的结构特征，且对页面的结构有一定要求，若页面结构是动态变化的便不能很准确的进行数据抽取，导致数据抽取失败。Web数据抽取技术可分为基于页面DOM结构的数据抽取技术、基于统计理论的数据抽取技术和基于页面视觉特征的数据抽取技术。其中基于页面DOM结构的数据抽取技术应用最为广泛。当前基于页面DOM结构的研究大多集中在对特定的页面进行推导，根据某类网页特征生成树中的数据对象的对应实例路径，在网页结构发生变化时无法自适应，即使发生...

【技术保护点】
1.一种基于模板的自适应Web页面数据抽取方法，所述方法包括：/n步骤1)建立包含若干个数据抽取模板的数据抽取模板库；/n步骤2)抓取Web页面的HTML源代码，由此构建网页DOM树；/n步骤3)提取Web页面URL，与数据抽取模板库中的模板依次进行匹配，如果全部匹配成功，则选择匹配度最高的模板作为最优数据抽取模板，转入步骤5)；否则进入步骤4)；/n步骤4)根据匹配失败的数据重新制定新的模板，加入数据抽取模板库，转入步骤3)；/n步骤5)根据最优数据抽取模板进行数据抽取，如果数据抽取完全成功，数据抽取结束；否则，进入步骤6)；/n步骤6)对最优数据抽取模板进行自适应修改后进行数据抽取，数据抽...

【技术特征摘要】
1.一种基于模板的自适应Web页面数据抽取方法，所述方法包括：
步骤1)建立包含若干个数据抽取模板的数据抽取模板库；
步骤2)抓取Web页面的HTML源代码，由此构建网页DOM树；
步骤3)提取Web页面URL，与数据抽取模板库中的模板依次进行匹配，如果全部匹配成功，则选择匹配度最高的模板作为最优数据抽取模板，转入步骤5)；否则进入步骤4)；
步骤4)根据匹配失败的数据重新制定新的模板，加入数据抽取模板库，转入步骤3)；
步骤5)根据最优数据抽取模板进行数据抽取，如果数据抽取完全成功，数据抽取结束；否则，进入步骤6)；
步骤6)对最优数据抽取模板进行自适应修改后进行数据抽取，数据抽取结束。

2.根据权利要求1所述的基于模板的自适应Web页面数据抽取方法，其特征在于，所述步骤1)的数据抽取模板包括地址块和数据块，其中，所述地址块包含：表示数据抽取的网站的<site>和表示数据抽取的页面网址的<url>，所述数据块包含：表示需要抽取的页面数据的XPath路径表达式集合<xpaths>和表示数据搜索规则的<rule>；
<data>表示需要抽取的数据，由多个<node>标签构成；<node>标签中，<nodeId>表示抽取数据的标识，<title>表示抽取数据的含义；<rule>标签中，<keyword>表示关键字规则，<tag>表示Html标签规则，<context>表示上下文规则，包含<content>和<distance>两个标签，分别为上下文内容和与当前节点的距离，<font>包含<color>和<size>两个标签，分别为字体颜色和字体大小。

3.根据权利要求2所述的基于模板的自适应Web页面数据抽取方法，其特征在于，所述数据搜索规则包括关键字搜索规则、HTML标签搜索规则和上下文搜索规则；
所述关键字搜索规则为：如果目标数据对应的文本信息在Web页面中是唯一的，则在模板中的相应<keyword>标签中加入该文本信息，作为关键字规则，关键字相关度dkey(ntxt,mkey)定义为：

其中，ntxt为DOM树中节点数据对应的文本信息，mkey为模板中对应的<keyword>标签的值；
所述HTML标签搜索规则为：如果目标数据对应的是HTML标签信息在Web页面中是特殊的，则在模板中的相应<tag>标签中加入该HTML标签信息，作为HTML标签规则；HTML标签相关度dtag(ntag,mtag)定义为：

其中，ntag为DOM树节点数据对应的HTML标签信息，|ntag|为ntag在DOM树中出现的次数，mtag为模板中对应的<tag>标签的值；
所述上下文搜索规则为：如果要抽取的数据不容易搜索，但它有容易搜索的上下文，那么对目标数据的搜索可以转化为对其上下文的搜索；找到其上下文后，根据上下文的位置定位目标数据，上下文相关度dcom(ndist,mdist)定义为：

其中，ndist为DOM树中节点数据与对应上下文之间的距离，mdist为模板中对应的<distance>标签的值。

【专利技术属性】
技术研发人员：李艳霞，刘鹏，刘学，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人