【技术实现步骤摘要】
一种基于大数据的产业分析系统
本专利技术属于产业分析系统
,涉及一种基于大数据的产业分析系统。
技术介绍
数据资源作为信息社会的重要生产要素、无形资产和社会财富,已成为国家基础性战略资源。通过对数据进行深入分析,能够总结经验、发现规律、预测趋势、辅助决策。经济发展进入新常态,会出现很多新情况、新问题,急需科学研判、及时应对,把政策工具箱的工具备好、备足,这就对传统的产业监测调度方式提出了更高的要求。政府决策迫切需要掌握产业发展相关信息,包括从宏观到微观各个层面的信息,为产业转型升级、招商引资、企业发展扶持等政策的制定和调整提供量化决策依据,以实现更加精准有效的开展有关配套工作,引导和推动着上海大数据产业快速、健康、有序的发展。企业发展迫切需要掌握产业发展动态,市场发展动态。目前产业发展研究工作的推动和研究以比较分散的方式开展,主要分别对各个因素开展研究,或者是基于专家经验,难以满足快速推进中的某一产业发展需要。通过建立产业大数据分析平台,可以解决这一问题,给政府部门掌握产业发展现状,制定决策提供有效帮助,有效促进产业发展。
技术实现思路
为了克服上述技术的不足,本专利技术的目的在于提供了一种基于大数据的产业分析系统,可以分析影响该产业发展的相关因素,总结经验、发现规律、预测趋势、辅助决策,为产业发展提供数据支撑,基于数据分析做出决策而非仅仅是专家经验。为达到上述目的,本专利技术采用的技术方案如下:一种基于大数据的产业分析系统,包括产业发展相关数据库模块、数据分 ...
【技术保护点】
1.一种基于大数据的产业分析系统,其特征是:包括产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块;/n产业发展相关数据库模块用于存储某产业发展相关数据资源;/n数据分析模型模块用于存储数据分析模型;/n数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后,从数据分析模型模块中调取相关模型,将相关数据输入到相关模型中;/n数据分析模型模块还用于在相关数据输入到相关模型中后,输出分析结果;/n用户端界面模块与数据分析模型模块连接,用于显示分析结果。/n
【技术特征摘要】
1.一种基于大数据的产业分析系统,其特征是:包括产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块;
产业发展相关数据库模块用于存储某产业发展相关数据资源;
数据分析模型模块用于存储数据分析模型;
数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后,从数据分析模型模块中调取相关模型,将相关数据输入到相关模型中;
数据分析模型模块还用于在相关数据输入到相关模型中后,输出分析结果;
用户端界面模块与数据分析模型模块连接,用于显示分析结果。
2.根据权利要求1所述的一种基于大数据的产业分析系统,其特征在于,某产业发展相关数据资源包括与某产业发展相关的行业数据、企业数据、区域数据和技术数据。
3.根据权利要求1所述的一种基于大数据的产业分析系统,其特征在于,数据分析模型包括产业分类模型、产业链模型和企业绩效评估模型;
产业分类模型用于根据待分类企业的企业经营范围,确定企业的产业分类;
产业链模型用于通过加权评分法,根据待分类企业的数据,在“资源”、“技术”、“应用”、“产业支撑”四个类别中的评分,确定企业在产业链中的位置,即在产业链中的类别;
企业绩效评估模型用于根据与企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力相关的数据对企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力进行打分后,计算加权总分得到企业绩效。
4.根据权利要求3所述的一种基于大数据的产业分析系统,其特征在于,产业分类模型的建立流程如下:
(1)开始;
(2)以企业数据集作为根节点创建树;
(3)创建节点;
(4)判断企业数据集是否为空,如果是,则返回上一节点后,结束;反之,则进入下一步;
(5)判断当前节点数据集是否属于同类属性,如果是,则记为叶节点并标记为类C后,结束;反之,则进入下一步;
(6)判断候选属性集是否为空,如果是,则记为S中含样本数量最多的类C后,结束;反之,则进入下一步;
(7)计算集合中每个企业条件属性的信息增益率;
(8)选择候选集中最大的信息增益作为当前节点的分割属性;
(9)根据分割属性的值确定企业数据集,建立相应分支;
(10)对企业数据集连续递归运行函数,返回步骤(2);
产业分类模型的工作流程如下:
(1)开始;
(2)输入待分类企业的经营范围数据;
(3)通过决策树算法,对企业进行产业分类;
(4)结束。
5.根据权利要求3所述的一种基于大数据的产业分析系统,其特征在于,产业链模型的工作流程如下:
(1)开始;
(2)数据集获取:获取企业的工商信息、知识产权、企业运营历史数据作为原始数据集,并构建大数据产业链分类指标,分别为:“资源”、“技术”、“应用”和“产业支撑;
(3)数据标注:将原始数据集依据大数据产业链分类指标来标注企业在产业链中的类别;
(4)数据预处理:对原始数据集中的数据进行数据匹配及异常值去除操作;
(5)数据集划分:将原始数据集中的数据按照3:1的比例进行划分训练集与测试集;
(6)构建随机森林:在训练集上应用传统随机森林算法构建用于预测企业在产业链中位置的随机森林;
(7)随机森林模型训练:利用训练集中的数据训练N棵决策树的随机森林模型,N为大于1的整数,每棵决策树都随机的从训练集中随机抽取企业数据进行训练,采用增益熵来选择合适的属性节点,每棵树从训练集中随机抽取样本和属性特征来生成各自的节点,直到所有决策树把自己抽样出的样本分类完;
(8)模型评估与校正:将测试集输入训练好的随机森林模型进行分类,将分类结果与实际结果进行统计,并计算预测准确率,分类结果与实际结果都为企业在产业链中的类别,当预测准确率小于设定值时,计算每棵决策树得到的分类结果并计算其AUC值,基于AUC值从目前的随机森林模型中提取出相对高精度的决策树集合,再根据相似性对其进行聚类,划分为不同的类簇,最后从不...
【专利技术属性】
技术研发人员:崔晓君,陈俊琰,王怡宁,
申请(专利权)人:上海华东电信研究院,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。