一种深度网络数据自动抽取方法及系统技术方案

技术编号：10973879 阅读：104 留言：0更新日期：2015-01-30 05:49

本发明专利技术公开了一种深度网络数据自动抽取方法及系统，该方法包括以下步骤：进行行业相关数据探测和抓取；进行WEB页面解析和语义摘要提取；进行Deep Web数据自动抽取。本发明专利技术中，在没有损失行业数据收录量的情况下，极大地节约带宽和数据检索量，并提高了数据入库周期，提高实时度。

全部详细技术资料下载

【技术实现步骤摘要】
一种深度网络数据自动抽取方法及系统
本专利技术涉及数据网络
，尤其涉及一种深度网络数据自动抽取方法及系统。
技术介绍
随着信息化程度不断加深，企业对情报信息化集成的渴求也日益强烈；互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息，成为重要的情报信息源头。目前提供信息定制搜索与情报分析相关产品的公司为数不多，且产品对用户本身的基础信息设施要求高，实施周期长，系统建设和维护成本高，主要客户是超大型企业和政府，普通企业无力承受。
技术实现思路
为了解决
技术介绍
中存在的技术问题，本专利技术提出了一种深度网络数据自动抽取方法及系统，极大降低了系统对企业信息设施的要求，使其能在千差万别的企业基础信息设施上部署。本专利技术提出的一种深度网络数据自动抽取方法，包括以下步骤: 进行行业相关数据探测和抓取；进行WEB页面解析和语义摘要提取；进行De印Web数据自动抽取。优选地，所述进行行业相关数据探测和抓取，具体为定点采集，通过用户配置采集已知的数据源。优选地，所述进行行业相关数据探测和抓取，具体为采用web行...

【技术保护点】
一种深度网络数据自动抽取方法，其特征在于，包括以下步骤：进行行业相关数据探测和抓取；进行WEB页面解析和语义摘要提取；进行Deep Web数据自动抽取。

【技术特征摘要】
1.一种深度网络数据自动抽取方法，其特征在于，包括以下步骤: 进行行业相关数据探测和抓取；进行WEB页面解析和语义摘要提取；进行Deep Web数据自动抽取。2.根据权利要求1所述的深度网络数据自动抽取方法，其特征在于，所述进行行业相关数据探测和抓取，具体为定点采集，通过用户配置采集已知的数据源。3.根据权利要求1所述的深度网络数据自动抽取方法，其特征在于，所述进行行业相关数据探测和抓取，具体为采用web行业信息探针，通过URL统一资源定位符链路、搜索引擎跳板，找备选网站，然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么，并通过网站拓扑、URL结构，form表格对深度网络进行挖掘，以找潜在数据源。4.根据权利要求1所述的深度网络数据自动抽取方法，其特征在于，所述进行WEB页面解析和语义摘要提取，具体为利用HTML规范和基于视觉页面分块技术，提取页面的元信息和正文文本。5.根据权利要求1所述的深度网络数据自动抽取方法，其特征在于，所述进行行业相关数据探测和抓取，具体包括: 采用网络探针技术，不断探测一个站点网页，通过自动填充表单的方式，测试返回数据，从而找到最合适的表单格式；找到表单格式之后，自动提交表单，比较获取网页；分析前后获取页面DOM树，抽取出DOM树中节点内容不同的节点，获取需要采集的数据。6.根据权利要求5所述的深度网络数据自动抽取方法，其特征在于，提取到正确的数据后，通知管理员配...

【专利技术属性】
技术研发人员：贾岩，
申请(专利权)人：安徽华贞信息科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人