一种网络资讯的采集和分析方法及系统技术方案

技术编号:13738227 阅读:65 留言:0更新日期:2016-09-22 09:56
本发明专利技术提供了一种网络资讯的采集方法及系统,所述方法包括以下步骤:S1:为预设的抓取节点分配抓取任务,所述抓取任务至少对应于一个目标网络的网络地址;S2:接收所述抓取节点发送的所抓取到的数据信息,并根据所述数据信息提取出目标数据并将所述目标数据存入目标数据库中,所述目标数据包括:关于所述数据信息的标题、来源、发布时间和正文内容;S3:判断当前的所述目标数据与所述目标数据库中的其他目标数据的重复度。本发明专利技术采取智能的技术方式采集资讯,极大的突破了人工资讯采集处理的瓶颈,还有程序自动建立资讯关键信息索引,为资讯大数据应用建立坚实基础。

【技术实现步骤摘要】

本专利技术涉及互联网数据爬虫
,特别是涉及一种基于互联网的网络资讯的采集与分析方法及系统。
技术介绍
现有公众获取财经资讯的方式已从报纸、广播、电视等方式逐渐转变为以互联网为主流方式。而网络资讯透过互联网的传播,通过不同来源使得其产生持续性的影响力和传播力。目前大部分的网络资讯处理都透过人工方式维护与管理,通过人工方式维护与管理对于网络资讯的及时性以及网络资讯的利用等都会有诸多的不足。因此,利用人工方式对财经资讯的收集和整理,消耗大量时间和经历并且效果达不到预期的理想。在新的互联网形势下面对这些困扰,需要借助互联网的技术手段和方式,快速开展网络资讯的传播时间和广度检测,来提高互联网上资讯的情报指导和内容挖掘的能力。
技术实现思路
本专利技术所要解决的问题是提供一种能够为网络资讯的深度挖掘应用提供数据逻辑支持的网络资讯的采集和分析方法及系统。为了解决上述技术问题,本专利技术提供了如下的技术方案:一种网络资讯的采集和分析方法,包括以下步骤:S1:为预设的抓取节点分配抓取任务,所述抓取任务至少对应于一个目标网络的网络地址;S2:接收所述抓取节点发送的所抓取到的数据信息,并根据所述数据信息提取出目标数据并将所述目标数据存入目标数据库中,所述目标数据包括:关于所述数据信息的标题、来源、发布时间和正文内容;S3:判断当前的所述目标数据与所述目标数据库中的其他目标数据的重复度。作为优选,所述步骤S1进一步配置为,根据分布在各抓取节点的网络爬虫的状态,分配所述抓取任务。作为优选,所述步骤S1进一步包括:S10:确定各所述抓取节点所对应的目标网站的种子数量;S11:确定所述抓取节点的网络爬虫所完成的抓取的种子数量和未完成抓取的种子数量;S12:对所述抓取节点的网络爬虫所完成的种子数量从高到低进行排序;S13:将未完成抓取任务的种子分别按照S12中的顺序分配给各所述抓取节点。作为优选,步骤S3进一步包括:S30:对所述目标数据建立索引,并将所述索引存入索引数据库中;S31:比较所述索引数据库中各索引所对应的目标数据,判断各所述目标数据的重复度,并将所述重复度对应的写入所述目标数据库中。作为优选,根据所述目标数据的重复度,建立各存在重复数据的目标数据与时间的对应关系。作为优选,所述索引包括所述目标数据中的关键字和关键词。作为优选,所述目标数据库中相关联的包括所述索引数据库中的索引信息。作为优选,所述目标网络为财经资讯的相关网络。本专利技术还提供了一种网络资讯的采集和分析系统,其应用如上所述的网络资讯的采集和分析方法,且所述系统包括:任务分配模块,其为预设的抓取节点分配抓取任务,所述抓取任务至少对应于一个目标网络的网络地址;抓取模块,其接收并执行所述抓取任务;提取模块,其接收所述抓取模块中的各抓取节点所抓取到的数据信息,并根据所述数据信息提取出目标数据,并将所述目标数据存入目标数据库中,所述目标数据包括:关于所述数据信息的标题、来源、发布时间和正文内容;分析模块,其根据所述提取模块提取的数据信息判断当前的所述目标数据与所述目标数据库中的其他目标数据的重复度。作为优选,所述分析模块,进一步包括:索引建立单元,其对所述目标数据建立索引,并将所述索引存入索引数据库中;重复度判断单元,其基于建立的所述索引所对应的目标数据,判断各所述目标数据的重复度,并将所述重复度对应的写入所述目标数据库中。本专利技术的有益效果在于:本专利技术采取智能的技术方式采集资讯,极大的突破了人工资讯采集处理的瓶颈,还有程序自动建立资讯关键信息索引,为资讯大数据应用建立坚实基础。附图说明图1为本专利技术实施例中的网络资讯的采集和分析方法的流程图;图2为本专利技术实施例中的网络资讯的采集和分析系统的原理框图。附图标记说明1-任务分配模块 2-抓取模块3-提取模块 4-分析模块具体实施方式下面,结合附图对本专利技术的实施例进行更加详细的说明,但不作为本专利技术的限定。本专利技术提供了一种网络资讯的采集和分析方法和系统,本专利技术的方法可以实现自动的对网络中的抓取节点所抓取的数据进行分析,并建立相关的索引,并可以分析出该索引所对应的数据的重复度以及时间之间的关系,为数据的挖掘提供了强大的背景支持。如图1所示,为本专利技术实施例中的一种网络资讯的采集和分析方法的流程图,其中包括以下步骤:S1:通过工具设置平台,为预设的抓取节点分配抓取任务,所述抓取任务至少对应于一个目标网络的网络地址;该网络地址可以是关于财经信息的网站地址。S2:接收各抓取节点发送的所抓取到的数据信息,并根据该数据信息提取出目标数据,并将所述目标数据存入目标数据库中,所述目标数据包括:关于数据信息的标题、来源、发布时间和正文内容;同时该数据信息中还可以包括所抓取的网站的种子以及未完成抓取任务的网站种子信息。S3:判断当前的目标数据与所述目标数据库中的其他目标数据的重复度。该重复度可以包括关于标题的重复、网站内容的重复,或者是来源的重复,而且该重复度可以将上述多种情况下的重复进行综合的运算以得到体现上述所有的重复内容的重复度。通过上述配置,本专利技术的实施例可以通过统计各相关网站中所发布的信息的相关性,并能够总结出重复度内容,以分析内容的热点或热度。另外,步骤S1还可以进一步配置为,根据分布在各抓取节点的网络爬虫的状态,分配所述抓取任务。也就是说,可以根据各网络节点的网络爬虫的任务完成状态或空闲状态来分配抓取任务,以均衡各个网络节点的工作状态。具体的,本专利技术实施例中的步骤S1可以进一步包括:S10:确定各抓取节点所对应的目标网站的种子数量,即确定各抓取节点的网络爬虫的总任务量;S11:确定所述抓取节点的网络爬虫所完成的抓取的种子数量和未完成抓取的种子数量;S12:对所述抓取节点的网络爬虫所完成的种子数量从高到低进行排序;S13:将未完成抓取任务的种子分别按照S12中的顺序分配给各所述抓取节点。通过上述配置,可以自动的计算出网络节点中各网络爬虫的抓取任务的完成量,并根据该完成量的高低顺序再次分配任务,可以提高任务抓取的效率,还可以提高各网络节点的相互配合作用,以有效快速的完成抓取任务。另外,本实施例中的步骤S3还可以进一步包括:S30:对所述目标数据建立索引,并将所述索引存入索引数据库中;S31:比较所述索引数据库中各索引所对应的目标数据,判断各所述目标数据的重复度,并将所述重复度对应的写入所述目标数据库中。也就是说通过建立索引的方式来更加有效快速的查找到重复内容或关键内容的重复度,还可以方便数据信息的调取和读取。其中,本实施例中根据所述目标数据的重复度,建立各存在重复数据的目标数据与时间的对应关系。即可以建立具有重复信息的各数据信息或目标数据以及各自的发布时间的时间轴关系,并可以将该关系存入到目标数据库中。本实施例中的索引可以包括所述目标数据中的关键字和关键词,并且所述目标数据库中相关联的包括所述索引数据库中的索引信息。通过目标数据库和索引数据库的关联性,可以快速的对应查找到相关的数据信息,以快速实现信息的读取和查找以及对比。本专利技术还提供了一种网络资讯的采集和分析系统,该系统应用了如上实施例中所描述的网络资讯的采集和分析的方法,且如图2所示,为本专利技术实施中的网络资讯的采集和分析系统可以包括:任务分配模块1、抓取模块2、提取模块3本文档来自技高网...

【技术保护点】
一种网络资讯的采集和分析方法,其特征在于,包括以下步骤:S1:为预设的抓取节点分配抓取任务,所述抓取任务至少对应于一个目标网络的网络地址;S2:接收所述抓取节点发送的所抓取到的数据信息,并根据所述数据信息提取出目标数据并将所述目标数据存入目标数据库中,所述目标数据包括:关于所述数据信息的标题、来源、发布时间和正文内容;S3:判断当前的所述目标数据与所述目标数据库中的其他目标数据的重复度。

【技术特征摘要】
1.一种网络资讯的采集和分析方法,其特征在于,包括以下步骤:S1:为预设的抓取节点分配抓取任务,所述抓取任务至少对应于一个目标网络的网络地址;S2:接收所述抓取节点发送的所抓取到的数据信息,并根据所述数据信息提取出目标数据并将所述目标数据存入目标数据库中,所述目标数据包括:关于所述数据信息的标题、来源、发布时间和正文内容;S3:判断当前的所述目标数据与所述目标数据库中的其他目标数据的重复度。2.根据权利要求1所述的方法,其特征在于,所述步骤S1进一步配置为,根据分布在各抓取节点的网络爬虫的状态,分配所述抓取任务。3.根据权利要求2所述的方法,其特征在于,所述步骤S1进一步包括:S10:确定各所述抓取节点所对应的目标网站的种子数量;S11:确定所述抓取节点的网络爬虫所完成的抓取的种子数量和未完成抓取的种子数量;S12:对所述抓取节点的网络爬虫所完成的种子数量从高到低进行排序;S13:将未完成抓取任务的种子分别按照S12中的顺序分配给各所述抓取节点。4.根据权利要求1所述的方法,其特征在于,步骤S3进一步包括:S30:对所述目标数据建立索引,并将所述索引存入索引数据库中;S31:比较所述索引数据库中各索引所对应的目标数据,判断各所述目标数据的重复度,并将所述重复度对应的写入所述目标数据库中。5.根据权利要求4所述的方法,其特征在于...

【专利技术属性】
技术研发人员:吴斌谢晓勇黄俊胡春华陈志雄胡浩
申请(专利权)人:优品财富管理有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1