网页数据采集装置制造方法及图纸

技术编号:14847717 阅读:43 留言:0更新日期:2017-03-17 13:36
本专利公开了互联网数据处理领域中的一种网页数据采集装置,包括壳体,壳体内设有电子芯片,电子芯片包括端口模块、抽取模块、虚拟模块和存储模块;端口模块包括连接单元,输入单元和输出单元;虚拟模块包括虚拟发生子模块和虚拟空间子模块;虚拟空间子模块包括第一确定单元、第二确定单元、删减单元和确定采集单元;存储模块包括存储单元和压缩单元;连接单元与输入单元间、输入单元与抽取模块间、存储单元与压缩单元间、存储单元与输出单元间、第二确定单元与删减单元间、抽取模块与第一确定单元间、第一确定单元与第二确定单元间、第二确定单元与存储单元间、存储单元与第一确定单元间均采用电信号连接。通过优化设计,提高了数据的采集速度。

【技术实现步骤摘要】

本技术涉及互联网数据处理领域,特别涉及一种网页数据采集装置
技术介绍
随着计算机网络的迅速发展,互联网已经成为一个巨大的信息资源库,最常用的资源通常通过网页的方式呈现。通过网页,用户获取信息的方式得到了拓展,并且随着网络技术的不断成熟,互联网已经成为用户获取信息的主要载体。通过该信息资源库,我们可以从浩瀚的信息资源海洋中精准采集到我们所需要的信息;在对采集的信息进行加工分析的基础上就可以使用户在信息采集,资源整合方面节约大量的人力与资金。目前的数据采集方式主要是将从网页上采集到的相关数据下载到电脑或移动磁盘中,在对下载的数据进行分析处理,以实现对网页数据的精准采集。在通过提取网页进行数据信息采集时,每两次信息采集之间存在一定的时间间隔,现有技术中一般每两次信息采集之间的时间间隔相等,或者该时间间隔符合泊松分布。在进行信息采集时,每两次信息采集之间采用相等的时间间隔时,如果应用在更新比较缓慢的网站上,由于网站的更新比较慢,每两次信息采集过程中可能采集的信息相同,从而造成了搜索引擎资源的浪费,并且还可能带来带宽的浪费。当该时间间隔应用在更新比较频繁的网站上时,由于网站的更新比较频繁,网站的内容可能已经更新了,但是下一采集时间还没有到来,因此可能由于信息的漏采,造成信息采集的不准确。而当时间间隔符合泊松分布时,也只是由搜索引擎运行的时间增长,而使时间间隔趋于一个稳定值,即当搜索引擎长时间运行时,搜索引擎的信息采集的时间间隔也为一恒定值,因此该时间间隔在进行信息采集的过程中也会造成资源的浪费,及信息采集不准确的问题。针对这种情况,出现了申请号为201010236363.7的专利文件“一种网页数据信息的定向采集方法及装置”,该装置包括抽取模块、第一确定模块、第二确定模块和确定采集模块。其中,抽取模块用于根据采集到的列表页对应网页的内容,抽取每个内容所在的内容页的统一资源定位符信息,其中所述列表页为用于数据信息采集的网页;第一确定模块,用于根据抽取的每个内容页的统一资源定位符信息,及服务器中保存的已经进行了数据信息采集的每个统一资源定位符信息,确定该列表页中未进行数据信息采集的统一资源定位符信息的数量;第二确定模块,用于根据确定的所述列表页中未进行数据信息采集的统一资源定位符信息的数量,及抽取的所述内容页的统一资源定位符信息的数量,确定所述列表页(列表页为用于数据信息采集的网页)当前的页面更新率;确定采集模块,用于根据所述列表页所属网站的标准更新率,确定的所述列表页当前的页面更新率,及当前的信息采集时间间隔,确定针对所述列表页当前数据信息采集与下一次数据信息采集的时间间隔,并在等待该确定的时间间隔来后,进行数据信息采集。该装置基本解决现有技术中搜索引擎在进行信息采集时,造成的资源浪费及信息采集不准确的问题。但是在数据的储存过程中,由于储存设备(计算机、移动磁盘等)的存储空间有限,数据不断在存储设备中累积,当储存设备存储数据趋于饱和时,会导致采集数据的分析处理速度变得缓慢。
技术实现思路
本技术意在提供一种网页数据采集装置,以解决现有技术中的数据采集系统因存储设备容量不足及噪音数据不能及时删除而导致运行速度缓慢的问题。本方案中的网页数据采集装置,包括壳体,壳体内设有电子芯片,电子芯片包括端口模块、抽取模块、虚拟模块和存储模块;端口模块包括连接单元、输入单元和输出单元;虚拟模块包括虚拟发生子模块和虚拟空间子模块;虚拟空间子模块包括第一确定单元、第二确定单元、删减单元和确定采集单元;存储模块包括存储单元和压缩单元;连接单元与输入单元间通过电信号双向连接,输入单元与抽取模块间通过电信号双向连接,抽取模块通过电信号单向连接第一确定单元,第一确定单元通过电信号单向连接第二确定单元,第二确定单元与删减单元间通过电信号双向连接,第二确定单元通过电信号单向连接存储单元,存储单元与压缩单元间通过电信号双向连接,存储单元通过电信号双向连接输出单元和单向连接第一确定单元;抽取模块,用于根据采集到的列表页对应网页的内容,抽取每个内容所在的内容页的统一资源定位符信息;连接单元,用于与计算机进行连接;输入单元,用于将网页传输到抽取模块;输出单元,用于将标识信息传输至网络;虚拟发生子模块,用于产生大容量虚拟空间;第一确定单元,用于根据抽取的每个内容页的统一资源定位符信息,确定每个统一资源定位符信息对应标识信息;第二确定单元,用于针对确定的每个统一资源定位符信息对应的标识信息,判断是否存在该确定的标识信息;删减单元,用于删除筛分单元中重复多余的重复信息与已存在的标识信息;确定采集单元,用于根据列表页所属网页的标准更新率,确定针对列表页当前数据信息采集与下一次数据信息采集的时间间隔;存储单元,用于存放标识信息;压缩单元,用于压缩所述存储单元内的标识信息。本技术的工作原理:包括壳体,壳体内设有电子芯片,电子芯片包括端口模块、抽取模块、虚拟模块和存储模块;端口模块包括连接单元、输入单元和输出单元;将网页数据采集装置插入计算机USB插口,网页数据采集装置通过连接单元连接计算机,通过计算机输入需要采集信息的关键字,计算机网页搜索到的内容通过输入端口以电信号方式传输给抽取模块,抽取模块根据采集到的列表页对应网页的内容,抽取每个内容所在的内容页的统一资源定位符信息。虚拟模块包括虚拟发生子模块和虚拟空间子模块;虚拟空间子模块包括第一确定单元、第二确定单元、删减单元和确定采集单元;虚拟发生子模块通过预先设置的程序产生大容量的虚拟空间用以处理相关数据信息;抽取模块将抽取到的每个内容页的统一资源定位符信息通过电信号传输给第一确定单元,第一确定单元根据抽取的每个内容页的统一资源定位符信息,确定每个统一资源定位符信息对应标识信息,然后以电信号的方式传输到第二确定单元,第二确定单元针对确定的每个统一资源定位符信息对应的标识信息,判断是否存在该确定的标识信息;第二确定单元将确认的标识信息传输给确定采集单元,确定采集单元根据列表页所属网页的标准更新率,确定针对列表页当前数据信息采集与下一次数据信息采集的时间间隔,并将该时间间隔以电信号方式反馈给抽取模块。与此同时,第二确定单元将确认的标识信息传输给删减单元,删减单元根据第二确定单元提供的信息,发出指令删除第二确定单元中重复的信息,保留最新信息。存储模块包括存储单元和压缩单元;第二确定单元将确认的标识信息通过电信号单向传输给存储单元,存储单元将新的标识信息进行储存,然后通过电信号将标识数据传输给压缩单元,压缩单元通过接受到到表示数据信息查看是否存在更新,存在更新即向存储单元发出指令进行压缩;存储单元存在更新后将更新后的标识信息反馈给第一确定单元。当需要查看具体数据信息时,通过输出单元向存储单元发出指令,存储单元的数据通过输出单元传输到计算机,并通过计算机屏幕显示出来。本技术的有益效果:1、设置有虚拟发生子模块,通过虚拟发生子模块可以产生大容量的虚拟空间,当采集的数据进入虚拟空间内进行处理时,由于虚拟空间具有极大的储存空间,可以大大提高其运行速度,同时不必担心待处理数据占满处理空间。2、设有确定采集单元,确定采集单元能根据列表页所属网页的标准更新率,确定针对列表页当前数据信息采集与下一次数据信息采集本文档来自技高网
...
网页数据采集装置

【技术保护点】
网页数据采集装置,其特征在于:包括壳体,壳体内设有电子芯片,电子芯片包括端口模块、抽取模块、虚拟模块和存储模块;端口模块包括连接单元、输入单元和输出单元;虚拟模块包括虚拟发生子模块和虚拟空间子模块;虚拟空间子模块包括第一确定单元、第二确定单元、删减单元和确定采集单元;存储模块包括存储单元和压缩单元;连接单元与输入单元间通过电信号双向连接,输入单元与抽取模块间通过电信号双向连接,抽取模块通过电信号单向连接第一确定单元,第一确定单元通过电信号单向连接第二确定单元,第二确定单元与删减单元间通过电信号双向连接,第二确定单元通过电信号单向连接存储单元,存储单元与压缩单元间通过电信号双向连接,存储单元通过电信号双向连接输出单元和单向连接第一确定单元;抽取模块,用于根据采集到的列表页对应网页的内容,抽取每个内容所在的内容页的统一资源定位符信息;连接单元,用于与计算机进行连接;输入单元,用于将网页传输到抽取模块;输出单元,用于将标识信息传输至网络;虚拟发生子模块,用于产生大容量虚拟空间;第一确定单元,用于根据抽取的每个内容页的统一资源定位符信息,确定每个统一资源定位符信息对应标识信息;第二确定单元,用于针对确定的每个统一资源定位符信息对应的标识信息,判断是否存在该确定的标识信息;删减单元,用于删除筛分单元中重复多余的重复信息与已存在的标识信息;确定采集单元,用于根据列表页所属网页的标准更新率,确定针对列表页当前数据信息采集与下一次数据信息采集的时间间隔;存储单元,用于存放标识信息;压缩单元,用于压缩所述存储单元内的标识信息。...

【技术特征摘要】
1.网页数据采集装置,其特征在于:包括壳体,壳体内设有电子芯片,电子芯片包括端口模块、抽取模块、虚拟模块和存储模块;端口模块包括连接单元、输入单元和输出单元;虚拟模块包括虚拟发生子模块和虚拟空间子模块;虚拟空间子模块包括第一确定单元、第二确定单元、删减单元和确定采集单元;存储模块包括存储单元和压缩单元;连接单元与输入单元间通过电信号双向连接,输入单元与抽取模块间通过电信号双向连接,抽取模块通过电信号单向连接第一确定单元,第一确定单元通过电信号单向连接第二确定单元,第二确定单元与删减单元间通过电信号双向连接,第二确定单元通过电信号单向连接存储单元,存储单元与压缩单元间通过电信号双向连接,存储单元通过电信号双向连接输出单元和单向连接第一确定单元;抽取模块,用于根据采集到的列表页对应网页的内容,抽取每个内容所在的内容页的统一资源定位符信息;连接单元,用于与计算机进行连接;输入单元,用于将网页传输到抽取模块;输出单元,用于将标识信息传输至网络;虚拟发生子模块,用于产生大容量虚拟空...

【专利技术属性】
技术研发人员:潘万康邓昌银
申请(专利权)人:贵州亿垒科技有限公司
类型:新型
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1