基于聚焦爬虫技术的行业分析方法及系统技术方案

技术编号:18553731 阅读:36 留言:0更新日期:2018-07-28 10:49
本发明专利技术公开基于聚焦爬虫技术的行业分析方法及系统。该方法是利用聚焦网络爬虫技术对目标网站进行信息抓取,获得目标行业的结构化以及非结构化的数据信息;对抓取下来的数据信息进行页面信息解析、数据清洗和内容提取,对重复信息进行去重,并进行文本分词、特征提取以及关键词提取,分离出有用信息;使用文本分类和聚类算法,从有用信息中提取目标信息,形成行业的主题数据集;通过文档和\或图表的方式,将各个主题数据集中的内容进行信息多维可视化展现,形成行业分析报告。本发明专利技术可以辅助行业分析师监测行业所处的政策和经济环境、竞争对手的动态以及发现成长快的企业,并对产业集中度、市场规模、增长速度、发展趋势进行分析。

【技术实现步骤摘要】
基于聚焦爬虫技术的行业分析方法及系统
本专利技术涉及行业分析
,具体涉及一种基于聚焦爬虫技术的行业分析方法及系统。
技术介绍
行业是各种投资决策的重要工具,深入的行业研究更是投资成功的先决条件。当前大多数行业研究人员开展行业研究的方法主要是通过互联网搜索、实地调研、面对面访谈等途径获取行业数据,然后根据经济学理论和行业经验进行加工分析。互联网是大部分行业研究人员获取数据的最重要途径,以国际顶级咨询公司麦肯锡为例,其市场调研数据中有超过50%是从网络开源途径获得。由于互联网时代信息的爆发式增长,传统数据采集方法的瓶颈日益突出,行业分析师越来越难以在海量的网络数据中一次性或者简单地查询到其所需要的信息。在这种形势下,“大数据”作为一种新兴的数据处理技术与认知思维,获得全球科技界、产业界、政府部门的高度重视,被认为是海量数据采集、挖掘、分析的有力工具,已经成为世界各国的研究前沿与战略规划重点。将大数据技术引入行业分析,对于该领域的创新与突破具有重要意义。
技术实现思路
本专利技术的目的是针对现有技术中存在的技术缺陷,而提供基于聚焦爬虫技术的行业分析方法及系统。为实现本专利技术的目的所采用的技术方案是:基于聚焦爬虫技术的行业分析方法,包括以下步骤:利用聚焦网络爬虫技术对目标网站进行信息抓取,获得目标行业的结构化以及非结构化的数据信息;对抓取下来的数据信息进行页面信息解析、数据清洗和内容提取,对重复信息进行去重,并进行文本分词、特征提取以及关键词提取,分离出有用信息;使用文本分类和聚类算法,从有用信息中提取目标信息,分别形成包含行业法规政策主题、行业发展态势主题,行业发展环境主题、行业发展水平主题、行业市场容量主题、行业技术现状主题、行业进入退出障碍主题、行业生命周期主题、行业竞争格局主题、行业产能分布地图主题的主题数据集;通过文档和\或图表的方式,将各个主题数据集中的内容进行信息多维可视化展现,形成行业分析报告。其中,所述聚焦网络爬虫技术对目标网站进行信息抓取的步骤是:将目标网站设置为种子站点,对种子站点爬取到的第一代页面内容进行提取,搜集其中包含的所有子链接;根据主题特征向量判断子链接中待判定网页内容与主题的相关度,根据相关度筛选待访问链接,将相关度值达到设定阈值的链接加入待访问URL列表,将相关度小于设定阈值的链接滤除;启动主题爬虫,依次对待访问URL列表中的链接执行数据爬取。其中,所述根据主题特征向量判断子链接中待判定网页内容与主题的相关度,是通过主题特征向量与待判定网页对应的特征向量的夹角余弦来衡量的。其中,所述主题特征向量是通过TF-IDF算法计算得到的,步骤如下:先选取一与主题相关的样本网站页面,将预定的关键词集中的每一词条视为一特征项,作为样本网站网页的一基本单位,通过TF-IDF算法计算样本网站网页中每个特征项的权值,将该网站网页的特征项转换为n维空间向量,n维空间向量的每一维对应一特征项,代表对应特征项在该网页中的权值,由n个特征项转换成向量空间W(d)=(w1,w2,w3,…,wn),wi代表第i个特征项在样本网站页面d中的权值,此向量空间即主题特征向量。其中,所述的文本分类和聚类算法采用高斯混合模型。本专利技术的目的还在于提供基于聚焦爬虫技术的行业分析系统,包括:数据采集模块,用于利用聚焦网络爬虫技术对目标网站进行信息抓取,获得目标行业的结构化以及非结构化的数据信息;数据预处理模块,用于对抓取下来的数据信息进行页面信息解析、数据清洗和内容提取,对重复信息进行去重,并进行文本分词、特征提取以及关键词提取,分离出有用信息;数据分析模块,用于使用文本分类和聚类方法,从有用信息中提取目标信息,分别形成包含行业法规政策主题、行业发展态势主题,行业发展环境主题、行业发展水平主题、行业市场容量主题、行业技术现状主题、行业进入退出障碍主题、行业生命周期主题、行业竞争格局主题、行业产能分布地图主题的主题数据集;数据应用模块,用于通过文档和\或图表的方式,将各个主题数据集中的内容进行信息多维可视化展现,形成行业分析报告。所述数据应用模块还包括信息检索查询单元,用于用户输入检索查询信息。本专利技术所提出的基于聚焦爬虫技术的行业分析方法,借助聚焦爬虫技术从目标网站等处抓取特定行业的结构/非结构数据,然后对抓取后的内容进行文本分类和聚类,分别形成包括法规政策主题、经济环境主题、市场容量主题、技术现状主题、企业产量销售量主题、竞争格局主题在内的多个主题数据集,然后将各个主题数据集中的内容以文档和图表的形式展现,自动生成行业报告,从而可以辅助行业分析师监测行业所处的政策和经济环境、竞争对手的动态以及发现成长快的企业,并对产业集中度、市场规模、增长速度、发展趋势进行分析。附图说明图1是基于聚焦爬虫技术的行业分析方法的工作流程示意图;图2是聚焦网络爬虫对目标网站进行信息抓取的流程图;图3是基于聚焦爬虫技术的行业分析系统的原理示意图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。参见图1-2所示,基于聚焦爬虫技术的行业分析方法,包括以下步骤:利用聚焦网络爬虫技术对目标网站进行信息抓取,获得目标行业的结构化以及非结构化的数据信息;对抓取下来的数据信息进行页面信息解析、数据清洗和内容提取,对重复信息进行去重,并进行文本分词、特征提取以及关键词提取,分离出有用信息;使用文本分类和聚类算法,从有用信息中提取目标信息,分别形成包含行业法规政策主题、行业发展态势主题,行业发展环境主题、行业发展水平主题、行业市场容量主题、行业技术现状主题、行业进入退出障碍主题、行业生命周期主题、行业竞争格局主题、行业产能分布地图主题的主题数据集;通过文档和\或图表的方式,将各个主题数据集中的内容进行信息多维可视化展现,形成行业分析初级报告。其中,在提取目标信息时,可以是通过相应的算法和人工手段指定关键词进行专题侦测,提炼和发现产业生命周期、产业发展趋势、产业分布地图、产能利用率、产业政策、市场容量等目标信息,从而形成相应的主题数据集。其中,所抓取的信息的数据来源为开源数据,包括互联网开源数据、智库业务数据以及能源、环境、政策、法律、经济调研数据等,通过对这些的数据的获取,形成结构化以及非结构化的数据信息,可以存储在分布式结构\非结构数据库中,用于数据信息的大数据分析处理。本专利技术中,在对获取的数据进行存储处理时,使用分布式结构/非结构数据库,可通过基于Hadoop搭建一个具有高可靠性和良好扩展性的大数据云存储平台,支持结构化数据、半结构化数据和非结构化数据的分布式存储和并行计算,实现PB级多源异构大数据的批量和流式处理,由Hadoop交互模块对不同来源的数据进行清洗、格式判断,上传至HDFS进行存储处理。本专利技术通过将包括聚焦爬虫技术、分布式存储技术、云计算技术在内的大数据技术与行业研究进行结合,通过搭建面向行业分析领域的数据采集、处理和挖掘分析平台,用技术手段对互联网开源数据、智库业务数据、生产企业数据进行采集、整理和存储,通过聚类、关联、回归等挖掘分析提炼有价值信息,对目标产业在国内外的技术发展水平、产业生命周期、产业发展趋势、产业分布地图、产能利用率、产业政策、市场容本文档来自技高网...

【技术保护点】
1.基于聚焦爬虫技术的行业分析方法,其特征在于,包括以下步骤:利用聚焦网络爬虫技术对目标网站进行信息抓取,获得目标行业的结构化以及非结构化的数据信息;对抓取下来的数据信息进行页面信息解析、数据清洗和内容提取,对重复信息进行去重,并进行文本分词、特征提取以及关键词提取,分离出有用信息;使用文本分类和聚类算法,从有用信息中提取目标信息,分别形成包含行业法规政策主题、行业发展态势主题,行业发展环境主题、行业发展水平主题、行业市场容量主题、行业技术现状主题、行业进入退出障碍主题、行业生命周期主题、行业竞争格局主题、行业产能分布地图主题的主题数据集;通过文档和\或图表的方式,将各个主题数据集中的内容进行信息多维可视化展现,形成行业分析报告。

【技术特征摘要】
1.基于聚焦爬虫技术的行业分析方法,其特征在于,包括以下步骤:利用聚焦网络爬虫技术对目标网站进行信息抓取,获得目标行业的结构化以及非结构化的数据信息;对抓取下来的数据信息进行页面信息解析、数据清洗和内容提取,对重复信息进行去重,并进行文本分词、特征提取以及关键词提取,分离出有用信息;使用文本分类和聚类算法,从有用信息中提取目标信息,分别形成包含行业法规政策主题、行业发展态势主题,行业发展环境主题、行业发展水平主题、行业市场容量主题、行业技术现状主题、行业进入退出障碍主题、行业生命周期主题、行业竞争格局主题、行业产能分布地图主题的主题数据集;通过文档和\或图表的方式,将各个主题数据集中的内容进行信息多维可视化展现,形成行业分析报告。2.如权利要求1所述基于聚焦爬虫技术的行业分析方法,其特征在于,所述聚焦网络爬虫技术对目标网站进行信息抓取的步骤是:将目标网站设置为种子站点,对种子站点爬取到的第一代页面内容进行提取,搜集其中包含的所有子链接;根据主题特征向量判断子链接中待判定网页内容与主题的相关度,根据相关度筛选待访问链接,将相关度值达到设定阈值的链接加入待访问URL列表,将相关度小于设定阈值的链接滤除;启动主题爬虫,依次对待访问URL列表中的链接执行数据爬取。3.如权利要求2所述基于聚焦爬虫技术的行业分析方法,其特征在于,所述根据主题特征向量判断子链接中待判定网页内容与主题的相关度,是通过主题特征向量与待判定网页对应的特征向量的夹角余弦来衡量的。4.如权利要求2所述基于聚焦爬虫技术的行业分析方法,其特征在于,所述主题特征向量是通过TF-IDF算法计...

【专利技术属性】
技术研发人员:薛文芳韩艳超张德馨郑浩楠薛金鸽
申请(专利权)人:天津中科智能识别产业技术研究院有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1