【技术实现步骤摘要】
一种深度网络数据自动抽取方法及系统
本专利技术涉及数据网络
,尤其涉及一种深度网络数据自动抽取方法及系统。
技术介绍
随着信息化程度不断加深,企业对情报信息化集成的渴求也日益强烈;互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息,成为重要的情报信息源头。目前提供信息定制搜索与情报分析相关产品的公司为数不多,且产品对用户本身的基础信息设施要求高,实施周期长,系统建设和维护成本高,主要客户是超大型企业和政府,普通企业无力承受。
技术实现思路
为了解决
技术介绍
中存在的技术问题,本专利技术提出了一种深度网络数据自动抽取方法及系统,极大降低了系统对企业信息设施的要求,使其能在千差万别的企业基础信息设施上部署。 本专利技术提出的一种深度网络数据自动抽取方法,包括以下步骤: 进行行业相关数据探测和抓取; 进行WEB页面解析和语义摘要提取; 进行De印Web数据自动抽取。 优选地,所述进行行业相关数据探测和抓取,具体为定点采集,通过用户配置采集已知的数据源。 优选地,所述进行行业相关数据探测和抓取,具体为采用web行 ...
【技术保护点】
一种深度网络数据自动抽取方法,其特征在于,包括以下步骤:进行行业相关数据探测和抓取;进行WEB页面解析和语义摘要提取;进行Deep Web数据自动抽取。
【技术特征摘要】
1.一种深度网络数据自动抽取方法,其特征在于,包括以下步骤: 进行行业相关数据探测和抓取; 进行WEB页面解析和语义摘要提取; 进行Deep Web数据自动抽取。2.根据权利要求1所述的深度网络数据自动抽取方法,其特征在于,所述进行行业相关数据探测和抓取,具体为定点采集,通过用户配置采集已知的数据源。3.根据权利要求1所述的深度网络数据自动抽取方法,其特征在于,所述进行行业相关数据探测和抓取,具体为采用web行业信息探针,通过URL统一资源定位符链路、搜索引擎跳板,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格对深度网络进行挖掘,以找潜在数据源。4.根据权利要求1所述的深度网络数据自动抽取方法,其特征在于,所述进行WEB页面解析和语义摘要提取,具体为利用HTML规范和基于视觉页面分块技术,提取页面的元信息和正文文本。5.根据权利要求1所述的深度网络数据自动抽取方法,其特征在于,所述进行行业相关数据探测和抓取,具体包括: 采用网络探针技术,不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式;找到表单格式之后,自动提交表单,比较获取网页; 分析前后获取页面DOM树,抽取出DOM树中节点内容不同的节点,获取需要采集的数据。6.根据权利要求5所述的深度网络数据自动抽取方法,其特征在于,提取到正确的数据后,通知管理员配...
【专利技术属性】
技术研发人员:贾岩,
申请(专利权)人:安徽华贞信息科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。