一种基于大数据的产业分析系统技术方案

技术编号:25756160 阅读:34 留言:0更新日期:2020-09-25 21:05
本发明专利技术涉及一种基于大数据的产业分析系统,包括产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块;产业发展相关数据库模块用于存储某产业发展相关数据资源;数据分析模型模块用于存储数据分析模型;数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后,从数据分析模型模块中调取相关模型,将相关数据输入到相关模型中;数据分析模型模块还用于在相关数据输入到相关模型中后,输出分析结果;用户端界面模块与数据分析模型模块连接,用于显示分析结果。本发明专利技术的产业分析系统能够为产业发展提供数据支撑,基于数据分析做出决策。

【技术实现步骤摘要】
一种基于大数据的产业分析系统
本专利技术属于产业分析系统
,涉及一种基于大数据的产业分析系统。
技术介绍
数据资源作为信息社会的重要生产要素、无形资产和社会财富,已成为国家基础性战略资源。通过对数据进行深入分析,能够总结经验、发现规律、预测趋势、辅助决策。经济发展进入新常态,会出现很多新情况、新问题,急需科学研判、及时应对,把政策工具箱的工具备好、备足,这就对传统的产业监测调度方式提出了更高的要求。政府决策迫切需要掌握产业发展相关信息,包括从宏观到微观各个层面的信息,为产业转型升级、招商引资、企业发展扶持等政策的制定和调整提供量化决策依据,以实现更加精准有效的开展有关配套工作,引导和推动着上海大数据产业快速、健康、有序的发展。企业发展迫切需要掌握产业发展动态,市场发展动态。目前产业发展研究工作的推动和研究以比较分散的方式开展,主要分别对各个因素开展研究,或者是基于专家经验,难以满足快速推进中的某一产业发展需要。通过建立产业大数据分析平台,可以解决这一问题,给政府部门掌握产业发展现状,制定决策提供有效帮助,有效促进产业发展。
技术实现思路
为了克服上述技术的不足,本专利技术的目的在于提供了一种基于大数据的产业分析系统,可以分析影响该产业发展的相关因素,总结经验、发现规律、预测趋势、辅助决策,为产业发展提供数据支撑,基于数据分析做出决策而非仅仅是专家经验。为达到上述目的,本专利技术采用的技术方案如下:一种基于大数据的产业分析系统,包括产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块;产业发展相关数据库模块用于存储某产业发展相关数据资源;产业发展相关数据库模块通过数据治理,形成高度可用的数据资产,面向数据基础平台模块和数据分析模型模块提供支撑,支持数据查询和业务分析的需要;产业发展相关数据库模块的技术实现主要依靠以下技术:(1)能支持实时大数据处理的国产新型数据库,其具有以下功能:(1.1)大规模并行处理:存储建立在HDFS上、将计算中间结果放在内存中;(1.2)列式存储2.0:增强型元数据、字典编码数据、数据自动排序;(1.3)动态数据分配:广播小数据表、大表哈希值动态再分配、Join本地化、管道;(1.4)内存计算:向量化处理、基于底层虚拟机(LLVM)的动态编译;(1.5)OLTP/OLAP双分析引擎:兼容OLTP和OLAP数据分析处理需求;(2)数据接口系统与人机接口系统,其包括:(2.1)机器类数据接口与采集处理系统,其包括:(2.1.1)基础设施运行环境数据引擎处理子系统,能够适配并可配置MIB信息等;(2.1.2)SYSLOG日之类数据引擎处理子系统;(2.1.3)大数据产业及相关企业信息收集处理子系统;(2.2)业务类数据接口系统,业务综合数据接口应支持多种接口格式与人机交互混合模式,以适应多来源冷、热数据的接入处理等,业务数据接口格式种类扩展支持与更新管理,应对不同来源的大数据相关业务数据能够支持RestAPI/SNMP/SYSLOG/文件等多种格式的接口支持,支持实时、定时、条件触发等更新频率模式,并可配置,相关接口协议规范与标准定制列举如下:(2.2.1)SYSLOG接口,物联网、机器设备数据标准工业接口规范,包括服务器主机、通用网络设备、专用安全设备的系统日志应通过SYSLOG协议发送至安全管控系统,安全管控系统通过约定的SYSLOG消息格式,解析日志信息,并对日志信息进行规范、分析、关联等处理;(2.2.2)SNMP接口,物联网设备、服务器主机、通用网络设备、专用安全设备的系统日志应实现基本的SNMP协议MIB库,安全管控系统通过SNMP协议方式采集设备基本信息、采集设备运行性能协议以及接收设备SNMPTrap事件通知信息;(2.2.3)REST接口,REST接口协议是WebService(Web服务)的一种实现方式,主要应用于系统间的接口实现,移动警务平台中,除了在设备管理层面上使用通用的SNMP、SYSLOG协议以外,软件系统间、策略配置下发等场景应使用REST接口协议实现,一般情况下,应采用请求响应模式实现监测信息报送、策略与指令下发等,请求与响应通信协议应采用HTTP1.1overSSL/TLS,请求响应模式应使用HTTP作为接口实现协议,接口参数、返回结果均使用JSON对象,数据包大小不超过5MB,在网络反向不可达的情况下,可采用消息推送模式实现策略指令下发,通信协议应采用HTTP2.0的WEBSOCKEToverSSL/TLS,应使用HTTP作为接口实现协议,接口参数、返回结果均使用JSON对象,数据包大小不超过5MB;(2.2.4)应用系统日志接口,应用系统日志接口采用标准的SDK接口,用来发送终端应用/业务域日志数据,为保证采集性能,应用接口支持按集群方式部署,可根据要采集的日志量及并发数的大小,选择集群的节点数;(2.3)人机接口系统服务,其包括:(2.3.1)前端人机接口系统,为产业数万家企业建立主动服务的交互式数据采集人机接口;(2.3.2)安全平台数据交换前置服务平台,为产业分析平台建立安全数据通讯平台等;(2.3.3)企业相关数据清点与梳理服务、接口协商与定制服务;数据分析模型模块用于存储数据分析模型;数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后(将分析目标与相关数据匹配以顺利实现调取是已知技术,例如分析目标是针对近五年成立的企业进行分析,则从数据库中调用成立时间年份大于2015年的企业数据;又例如分析目标是针对“核心企业”,则从数据库中调用打有“核心企业”标签的企业数据),从数据分析模型模块中调取相关模型(将分析目标与相关模型匹配以顺利实现调取是已知技术,例如分析目标是“根据产业链进行分类”,则在分析模块中根据模型名称,手动选择“产业链模型”进行调用),将相关数据输入到相关模型中;数据基础平台模块为系统建设提供有力的平台支撑,缩短开发周期,降低系统建设风险,提升性能和稳定性;进行数据维护,包括数据补全与更新;进行数据查询,可进行向导式搜索和自定义报表,对于查询结果,具备条件筛选、排序、向上汇总、向下钻取、简单运算、条件格式等,支持结果的导出和打印;进行可视化展示,可通过内置多种智能可视化算法,实现海量数据的多维多终端立体呈现;数据基础平台模块的技术实现依靠一个可视化的大数据管理、分析与展现的平台,功能如下:(a)基于元数据的数据管理:为用户构建一套规范、统一、通用的大数据资源;(b)常规多维分析+开放建模:为用户提供多维分析、基于R语言的建模分析;(c)兼容传统、大数据存储:兼容关系型DB、Hadoop、NoSQL等存储类型;(d)可视化动态图表分析:为用户提供拖拽式、符合国人操作习惯的图表展示方式;数据分析模型模块本文档来自技高网...

【技术保护点】
1.一种基于大数据的产业分析系统,其特征是:包括产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块;/n产业发展相关数据库模块用于存储某产业发展相关数据资源;/n数据分析模型模块用于存储数据分析模型;/n数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后,从数据分析模型模块中调取相关模型,将相关数据输入到相关模型中;/n数据分析模型模块还用于在相关数据输入到相关模型中后,输出分析结果;/n用户端界面模块与数据分析模型模块连接,用于显示分析结果。/n

【技术特征摘要】
1.一种基于大数据的产业分析系统,其特征是:包括产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块;
产业发展相关数据库模块用于存储某产业发展相关数据资源;
数据分析模型模块用于存储数据分析模型;
数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后,从数据分析模型模块中调取相关模型,将相关数据输入到相关模型中;
数据分析模型模块还用于在相关数据输入到相关模型中后,输出分析结果;
用户端界面模块与数据分析模型模块连接,用于显示分析结果。


2.根据权利要求1所述的一种基于大数据的产业分析系统,其特征在于,某产业发展相关数据资源包括与某产业发展相关的行业数据、企业数据、区域数据和技术数据。


3.根据权利要求1所述的一种基于大数据的产业分析系统,其特征在于,数据分析模型包括产业分类模型、产业链模型和企业绩效评估模型;
产业分类模型用于根据待分类企业的企业经营范围,确定企业的产业分类;
产业链模型用于通过加权评分法,根据待分类企业的数据,在“资源”、“技术”、“应用”、“产业支撑”四个类别中的评分,确定企业在产业链中的位置,即在产业链中的类别;
企业绩效评估模型用于根据与企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力相关的数据对企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力进行打分后,计算加权总分得到企业绩效。


4.根据权利要求3所述的一种基于大数据的产业分析系统,其特征在于,产业分类模型的建立流程如下:
(1)开始;
(2)以企业数据集作为根节点创建树;
(3)创建节点;
(4)判断企业数据集是否为空,如果是,则返回上一节点后,结束;反之,则进入下一步;
(5)判断当前节点数据集是否属于同类属性,如果是,则记为叶节点并标记为类C后,结束;反之,则进入下一步;
(6)判断候选属性集是否为空,如果是,则记为S中含样本数量最多的类C后,结束;反之,则进入下一步;
(7)计算集合中每个企业条件属性的信息增益率;
(8)选择候选集中最大的信息增益作为当前节点的分割属性;
(9)根据分割属性的值确定企业数据集,建立相应分支;
(10)对企业数据集连续递归运行函数,返回步骤(2);
产业分类模型的工作流程如下:
(1)开始;
(2)输入待分类企业的经营范围数据;
(3)通过决策树算法,对企业进行产业分类;
(4)结束。


5.根据权利要求3所述的一种基于大数据的产业分析系统,其特征在于,产业链模型的工作流程如下:
(1)开始;
(2)数据集获取:获取企业的工商信息、知识产权、企业运营历史数据作为原始数据集,并构建大数据产业链分类指标,分别为:“资源”、“技术”、“应用”和“产业支撑;
(3)数据标注:将原始数据集依据大数据产业链分类指标来标注企业在产业链中的类别;
(4)数据预处理:对原始数据集中的数据进行数据匹配及异常值去除操作;
(5)数据集划分:将原始数据集中的数据按照3:1的比例进行划分训练集与测试集;
(6)构建随机森林:在训练集上应用传统随机森林算法构建用于预测企业在产业链中位置的随机森林;
(7)随机森林模型训练:利用训练集中的数据训练N棵决策树的随机森林模型,N为大于1的整数,每棵决策树都随机的从训练集中随机抽取企业数据进行训练,采用增益熵来选择合适的属性节点,每棵树从训练集中随机抽取样本和属性特征来生成各自的节点,直到所有决策树把自己抽样出的样本分类完;
(8)模型评估与校正:将测试集输入训练好的随机森林模型进行分类,将分类结果与实际结果进行统计,并计算预测准确率,分类结果与实际结果都为企业在产业链中的类别,当预测准确率小于设定值时,计算每棵决策树得到的分类结果并计算其AUC值,基于AUC值从目前的随机森林模型中提取出相对高精度的决策树集合,再根据相似性对其进行聚类,划分为不同的类簇,最后从不...

【专利技术属性】
技术研发人员:崔晓君陈俊琰王怡宁
申请(专利权)人:上海华东电信研究院
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1