Web系统的数据资源模型化提取方法、装置以及设备制造方法及图纸

技术编号:21914099 阅读:37 留言:0更新日期:2019-08-21 12:28
本发明专利技术涉及通信技术领域,提供了一种Web系统的数据资源模型化提取方法、装置以及设备,旨在解决现有提取方法存在具有较高技术门槛、提取方法复杂的问题。所述Web系统的数据资源模型化提取方法包括:确定用户对Web网页的标记区域;检测所述标记区域对应的Web数据的页面结构类型;获取与所述页面结构类型相匹配的提取模型;根据所述提取模型的模型结构,结构化地输出所述Web数据。使用所述方法后,对于用户,仅需对网页上的某一区域进行标记,客户端会自动进行上述检测页面结构类型、获取提取模型、结构化地输出Web数据等步骤,用户不需要每次在提取数据前进行编辑代码或编辑提取规则等操作,也不需要在每次提取后手动对数据进行结构组织。

Modeling Method, Device and Device for Data Resource Extraction in Web System

【技术实现步骤摘要】
Web系统的数据资源模型化提取方法、装置以及设备
本专利技术涉及通信
,具体而言,涉及一种Web系统的数据资源模型化提取方法、装置以及设备。
技术介绍
随之Web技术的发展以及大数据时代的到来,Web系统包含越来越多的数据信息,Web数据提取是指从浏览器加载的网页上提取所需信息的过程,现有技术已提出了多种Web数据提取方法。例如每次提取时,针对所需信息的具体情况,通过编写程序代码以提取所需信息;又例如每次提取时,针对所需信息的具体情况,通过编辑提取规则(如正则表达式)以提取所需信息;还例如当提取出多份数据后,需要选取出每份数据,并手动对选取的数据进行结构组织,形成结构化数据,比如将零散的、无组织的数据组织成列表数据。然而如上所述的各种现有Web数据提取方法,均具有较高的技术门槛,提取方法复杂,导致Web数据提取所需的人力成本和时间成本较高。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种Web系统的数据资源模型化提取方法、装置以及设备,旨在解决现有提取方法存在具有较高技术门槛、提取方法复杂的问题。第一方面,本专利技术实施例提供了一种Web系统的数据资源模型化提取方法,应用于客户端,包括:确定用户对Web网页的标记区域;检测所述标记区域对应的Web数据的页面结构类型;获取与所述页面结构类型相匹配的提取模型;根据所述提取模型的模型结构,结构化地输出所述Web数据。可选地,所述根据所述提取模型的模型结构,结构化地输出所述Web数据,包括:根据所述提取模型中包含的各数据单元,从所述标记区域对应的html文档中获取所述各数据单元的内容;按照所述各数据单元在所述提取模型中排列成的所述模型结构,将获取到的所述各数据单元的内容进行结构化地排列,并输出。可选地,所述页面结构类型包括:文本信息类结构、信息列表类结构、表格类结构和表单类结构;所述文本信息类结构对应的提取模型中至少包含以下数据单元:标题、作者、时间以及正文;所述信息列表类结构对应的提取模型中至少包含以下数据单元:栏目和列表元素;所述表格类结构对应的提取模型中至少包含以下数据单元:表头和表内容;所述表单类结构对应的提取模型中至少包含以下数据单元:描述性文字和实际内容。可选地,所述表单类结构对应的提取模型中各数据单元按左右结构排列,左边为所述描述性文字,右边为所述实际内容。可选地,在检测出所述标记区域对应的Web数据的页面结构类型后,所述Web系统的数据资源模型化提取方法还包括:根据所述页面结构类型,判断是否需要对所述标记区域对应的html文档进行JavaScript静态代码解析;以及如果需要进行所述JavaScript静态代码解析,则进行所述JavaScript静态代码解析;所述根据所述提取模型的模型结构,结构化地输出所述Web数据,包括:对于在进行所述JavaScript静态代码解析后从Web服务器获取的新Web数据,根据所述提取模型的模型结构,结构化地输出所述新Web数据。可选地,所述Web系统的数据资源模型化提取方法还包括:在进行所述JavaScript静态代码解析时,从所述JavaScript静态代码中找到ajax请求,并重构所述ajax请求;将重构后的ajax请求发送给所述Web服务器,以从所述Web服务器获取所述新Web数据。可选地,所述确定用户对Web网页的标记区域,包括:接收用户输入的网址,并加载所述网址对应的所述Web网页;接收用户对所述Web网页的部分区域或全部区域的框选操作;将所述框选操作所框选的区域确定为所述标记区域。可选地,所述检测所述标记区域对应的Web数据的页面结构类型,包括:从所述Web网页对应的DOM树中确定所述标记区域在所述DOM树中的位置和属性;根据所述标记区域在所述DOM树中的位置和属性,确定所述标记区域对应的Web数据的页面结构类型。第二方面,本专利技术实施例提供了一种Web系统的数据资源模型化提取装置,包括:确定模块,用于确定用户对Web网页的标记区域;检测模块,用于检测所述标记区域对应的Web数据的页面结构类型;获取模块,用于获取与所述页面结构类型相匹配的提取模型;输出模块,用于根据所述提取模型的模型结构,结构化地输出所述Web数据。可选地,所述输出模块包括:提取子模块,用于根据所述提取模型中包含的各数据单元,从所述标记区域对应的html文档中获取所述各数据单元的内容;以及结构化子模块,用于按照所述各数据单元在所述提取模型中排列成的所述模型结构,将获取到的所述各数据单元的内容进行结构化地排列,并输出。可选地,所述输出模块包括:判断子模块,用于根据所述页面结构类型,判断是否需要对所述标记区域对应的html文档进行JavaScript静态代码解析;解析子模块,用于如果需要进行所述JavaScript静态代码解析,则进行所述JavaScript静态代码解析;以及结构化子模块,对于在进行所述JavaScript静态代码解析后从Web服务器获取的新Web数据,根据所述提取模型的模型结构,结构化地输出所述新Web数据。可选地,所述输出模块包括:重构子模块,用于在进行所述JavaScript静态代码解析时,从所述JavaScript静态代码中找到ajax请求,并重构所述ajax请求;以及发送子模块,用于将重构后的ajax请求发送给所述Web服务器,以从所述Web服务器获取所述新Web数据。可选地,所述确定模块包括:加载子模块,用于接收用户输入的网址,并加载所述网址对应的所述Web网页;接收子模块,用于接收用户对所述Web网页的部分区域或全部区域的框选操作;以及确定子模块,用于将所述框选操作所框选的区域确定为所述标记区域。可选地,所述检测模块包括:定位子模块,用于从所述Web网页对应的DOM树中确定所述标记区域在所述DOM树中的位置和属性;以及检测子模块,用于根据所述标记区域在所述DOM树中的位置和属性,确定所述标记区域对应的Web数据的页面结构类型。第三方面,本专利技术实施例提供了一种Web系统的数据资源模型化提取设备,包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序,当所述计算机程序被所述处理器执行时,实现第一方面所述的Web系统的数据资源模型化提取方法。与现有技术相比,本专利技术具有以下有益效果:本专利技术提供的Web系统的数据资源模型化提取方法应用于客户端,用于从网页文档(如html文档、xml文档等)和/或数据库服务器获取web数据并提取。由于本专利技术提供的方法中,客户端首先检测用户所标记区域对应的Web数据的页面结构类型,再根据页面结构类型获取与所述页面结构类型相匹配的提取模型,最后根据所述提取模型的模型结构,结构化地输出所述Web数据;因此对于用户,仅需对网页上的某一区域进行标记,客户端会自动进行上述检测页面结构类型、获取提取模型、结构化地输出Web数据等步骤,用户不需要每次在提取数据前进行编辑代码或编辑提取规则等操作,也不需要在每次提取后手动对数据进行结构组织。所述方法解决了现有提取方法存在具有较高技术门槛、提取方法复杂的问题。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通本文档来自技高网...

【技术保护点】
1.一种Web系统的数据资源模型化提取方法,应用于客户端,其特征在于,包括:确定用户对Web网页的标记区域;检测所述标记区域对应的Web数据的页面结构类型;获取与所述页面结构类型相匹配的提取模型;根据所述提取模型的模型结构,结构化地输出所述Web数据。

【技术特征摘要】
1.一种Web系统的数据资源模型化提取方法,应用于客户端,其特征在于,包括:确定用户对Web网页的标记区域;检测所述标记区域对应的Web数据的页面结构类型;获取与所述页面结构类型相匹配的提取模型;根据所述提取模型的模型结构,结构化地输出所述Web数据。2.根据权利要求1所述的Web系统的数据资源模型化提取方法,其特征在于,所述根据所述提取模型的模型结构,结构化地输出所述Web数据,包括:根据所述提取模型中包含的各数据单元,从所述标记区域对应的html文档中获取所述各数据单元的内容;按照所述各数据单元在所述提取模型中排列成的所述模型结构,将获取到的所述各数据单元的内容进行结构化地排列,并输出。3.根据权利要求2所述的Web系统的数据资源模型化提取方法,其特征在于,所述页面结构类型包括:文本信息类结构、信息列表类结构、表格类结构和表单类结构;所述文本信息类结构对应的提取模型中至少包含以下数据单元:标题、作者、时间以及正文;所述信息列表类结构对应的提取模型中至少包含以下数据单元:栏目和列表元素;所述表格类结构对应的提取模型中至少包含以下数据单元:表头和表内容;所述表单类结构对应的提取模型中至少包含以下数据单元:描述性文字和实际内容。4.根据权利要求3所述的Web系统的数据资源模型化提取方法,其特征在于,所述表单类结构对应的提取模型中各数据单元按左右结构排列,左边为所述描述性文字,右边为所述实际内容。5.根据权利要求1所述的Web系统的数据资源模型化提取方法,其特征在于,在检测出所述标记区域对应的Web数据的页面结构类型后,还包括:根据所述页面结构类型,判断是否需要对所述标记区域对应的html文档进行JavaScript静态代码解析;以及如果需要进行所述JavaScript静态代码解析,则进行所述JavaScript静态代码解析;所述根据所述提取模型的模...

【专利技术属性】
技术研发人员:张颖徐经纬黄罡苏星蔡斯博
申请(专利权)人:北京因特睿软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1