基于互联网大数据的经济发展指数评价方法技术

技术编号:20726480 阅读:31 留言:0更新日期:2019-03-30 18:01
本发明专利技术公开了一种基于互联网大数据的经济发展指数评价方法,该方法为:通过网络爬虫技术提取符合需求的互联网数据,根据机器学习方法对所述互联网数据进行预处理;根据分析要求和目的采用数据挖掘方法对预处理后的互联网数据进行归一化、分类、相关分析、指标合成、趋势信息提取获得指数基础数据;对所述指数基础数据进行指数转换获得常用指数数据。本发明专利技术弥补了传统经济指数编制的固有缺陷(数据采集时间长、成本高等);利用自然语言处理技术和数据挖掘技术进行数据分析和指标构建;在当前已存在的经济发展指数基础上,扩展了一些重要的经济发展指数;更加及时、准确的反映经济发展趋势,进行经济预测,辅助经济决策。

【技术实现步骤摘要】
基于互联网大数据的经济发展指数评价方法
本专利技术属于数据分析
,具体涉及一种基于互联网大数据的经济发展指数评价方法。
技术介绍
当前,我国经济发展指数主要是由国家统计局采用传统的调查方法进行汇总计算而成,完成该项工作需要大量的人力、物力、金钱以及时间,过程相对较慢;在互联网时代,信息传输速度极快,每天生产出庞大的数据信息,通过大数据挖掘技术可以获取及时、全面的经济信息,进而编制出一系列反映经济形势发展趋势的指数,有助于政府、企业等快速了解当前经济形势变化,及时、有效的做出相关决策。当前现有的经济发展指数主要是以国家统计局为代表的,采用传统的调查方法和数据计算方法编制而成,指数的形成既费时又费力,其时效性大大折扣,而且受多种因素影响,数据的涵盖面不能过广,这些都是传统指数固有的缺陷。经济发展指数是以互联网大数据为数据基础,通过借助数据处理、挖掘方法,进而编制而成,其是由一系列指数构成,包括消费环境评价指数、就业压力指数、双创热情指数、投资景气指数和投资环境指数等。经济发展指数的分析流程主要包括:数据采集、数据预处理、数据分析、指数换算。现有技术在分析过程中进行了季节调整和滤波处本文档来自技高网...

【技术保护点】
1.一种基于互联网大数据的经济发展指数评价方法,其特征在于,该方法为:通过网络爬虫技术提取符合需求的互联网数据,根据机器学习方法对所述互联网数据进行预处理;根据分析要求和目的采用数据挖掘方法对预处理后的互联网数据进行归一化、分类、相关分析、指标合成、趋势信息提取获得指数基础数据;对所述指数基础数据进行指数转换获得常用指数数据。

【技术特征摘要】
1.一种基于互联网大数据的经济发展指数评价方法,其特征在于,该方法为:通过网络爬虫技术提取符合需求的互联网数据,根据机器学习方法对所述互联网数据进行预处理;根据分析要求和目的采用数据挖掘方法对预处理后的互联网数据进行归一化、分类、相关分析、指标合成、趋势信息提取获得指数基础数据;对所述指数基础数据进行指数转换获得常用指数数据。2.根据权利要求1所述的基于互联网大数据的经济发展指数评价方法,其特征在于,所述经济发展指数包括消费环境评价指数、就业压力指数、双创热情指数、投资景气指数和投资环境指数。3.根据权利要求2所述的基于互联网大数据的经济发展指数评价方法,其特征在于,所述经济发展指数为消费环境评价指数时,该方法具体通过以下步骤实现:步骤101:以过滤关键词从互联网上抓取文本数据;步骤102:创建消费环境整体评价分析关键词表、消费环境具体评价分析关键词表和监管执法工作评价分析关键词表,并且分别确定关键词表的满意度,获得消费环境整体评价值、消费环境具体评价值和监管执法工作评价值;步骤103:采用机器学习模型对抓取的文本数据进行情感分析,获得不同情绪倾向的某一关键词的逐日出现频次,再根据情绪倾向差异将获得的所有关键词分为正、中、负三类,将属于同一类别的关键词的正、中、负逐日统计量分别求和,再通过每类关键词中正向和中性倾向的关键词求和除以该关键词出现的总频次;步骤104:创建境外消费关键词表,根据所述境外消费关键词表逐日抓取搜索指数,将所有的关键词逐日求和,获得境外消费评价值;步骤105:对获得的消费环境整体评价值、消费环境具体评价值、监管执法工作评价值和境外消费评价值进行标准化处理,所采用的标准化方法为离差标准化法,分析各类关键词的内涵后;步骤106:对标准化处理后的消费环境整体评价值、消费环境具体评价值、监管执法工作评价值和境外消费评价值进行HP滤波处理;步骤107:通过主成分赋权法对HP滤波处理后的消费环境整体评价值、消费环境具体评价值、监管执法工作评价值和境外消费评价值加权求和获得消费环境评价指数基础数据;步骤108:采用LOESS平滑法对所述消费环境评价指数基础数据进行季节因素剔除,提取趋势信息;步骤109:对所述趋势信息数据进行指数换算,消费环境网民评价指数=0.5+消费环境网民评价指数基础数据/10。4.根据权利要求2所述的基于互联网大数据的经济发展指数评价方法,其特征在于,所述经济发展指数为就业压力指数时,该方法具体通过以下步骤实现:步骤201:创建就业失业关键词表,根据所述就业失业关键词表在互联网上采集搜索数据;步骤202:对所述搜索数据进行预处理;步骤203:对预处理后的搜索数据进行聚类;步骤204:对聚类后的搜索数据进行分类汇总,获得N类关键词的求和;根据所述N类关键词的求和中排名靠前三分之二的M类关键词的求和占搜索总量的累积占比,将累积占比小于阈值的该类关键词进行剔除;步骤205:根据主成分赋权法对剩余的X类关键词进行进行加权求和,获得就业压力指数基础数据;步骤206:对所述就业压力指数基础数据进行滤波调整,然后采用LOESS平滑法对数据进行趋势分解,剔除季节性和随机性因素的影响,获得网民就业压力指数当期数据;步骤207:对指数进行定基调整:网民就业压力指数=(当期数据-基期数据)*10+100,以第一次获得的网民就业压力指数为基期数据。5.根据权利要求2所述的基于互联网大数据的经济发展指数评价方法,其特征在于,所述经济发展指数为双创热情指数时,该方法具体通过以下步骤实现:步骤301:以关键词从新闻媒体中采集逐日创业数据;步骤302:通过情感分析工具分析该关键词的逐日情感分布,包...

【专利技术属性】
技术研发人员:曹攀
申请(专利权)人:北京国信宏数科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1