基于企业社会信用代码的多源数据产业化分析系统及方法技术方案

技术编号:38570712 阅读:10 留言:0更新日期:2023-08-22 21:06
本发明专利技术涉及一种基于企业社会信用代码的多源数据产业化分析系统及方法,解决的是效率低、误差高的技术问题,通过采用分布设置的多源异构数据采集单元,与多源异构数据采集单元一一连接的完成数据虚拟化的多源异构数据处理单元,多源异构数据处理单元连接企业数据存储单元,还包括云服务器中设置的数据分析服务单元、数据呈现单元;多源异构数据处理单元包括统一社会信用代码内部分析单元,以及产业化数据处理单元的技术方案,较好的解决了该问题,可用于产业化分析中。可用于产业化分析中。可用于产业化分析中。

【技术实现步骤摘要】
基于企业社会信用代码的多源数据产业化分析系统及方法


[0001]本专利技术涉及数据产业化分析领域,具体涉及一种基于企业社会信用代码的多源数据产业化分析系统及方法。

技术介绍

[0002]“产业化”的概念是从“产业”的概念发展而来的。“产业”这个概念是属居于微观经济的细胞与宏观经济的单位之间的一个“集合概念”,它是具有某种同一属性的企业或组织的集合,又是国民经济以某一标准划分的部分的总和。产业分析,是指企业对特定行业的市场结构和市场行为进行调查与分析,为企业制定科学有效的战略规划提供依据的活动。
[0003]目前的产业化分析,存在分析结果不准确、分析效率低的技术问题,本专利技术提供一种基于企业社会信用代码的多源数据产业化分析系统及方法,能够姐姐上述技术问题。

技术实现思路

[0004]本专利技术所要解决的技术问题是现有技术中存在的效率低、误差高的技术问题。提供一种新的基于企业社会信用代码的多源数据产业化分析系统,该基于企业社会信用代码的多源数据产业化分析系统具有效率高、误差低的特点。
[0005]为解决上述技术问题,采用的技术方案如下:基于企业社会信用代码的多源数据产业化分析系统,所述基于企业社会信用代码的多源数据产业化分析系统包括:分布设置的多源异构数据采集单元,与多源异构数据采集单元一一连接的完成数据虚拟化的多源异构数据处理单元,多源异构数据处理单元连接企业数据存储单元,还包括云服务器中设置的数据分析服务单元、数据呈现单元;多源异构数据处理单元包括统一社会信用代码内部分析单元,以及产业化数据处理单元;统一社会信用代码内部分析单元包括内部代码特征识别分析子单元,以及企业行业类别分析子单元;内部代码特征识别分析子单元用于对统一社会信用代码进行内部识别分析,分析提取包括登记管理部门、企业类别、企业行政区域、主体身份标识码特征在内的特征数据;企业行业类别分析子单元用于以企业行业类别特征、企业行政区域特征为二元特征进行数据分集,确定企业二元特征参数;其中企业行业类别特征以登记管理部门特征、企业类别特征为依据,根据预定义的权重,进行加权拟合;产业化数据处理单元包括数据分集子单元、数据归属分析子单元、企业行业类别特征二次修正处理单元;数据分析子单元用于完成数据分集分类,数据归属分析子单元应用于分析企业数据与企业行为的关联性,将企业数据区分为与企业自身有关的,定义为企业涉己行为数据,与非企业自身业务相关的,定义为企业涉他数据;企业行业类别特征二次修正处理单元用
于根据企业涉己行为数据、企业涉他数据,对企业行业类别特征进行二次修正处理;企业数据存储单元包括二维网格单元和数据存储单元,二维网格单元用于根据企业行业类别特征、企业行政区域特征进行二维网络;数据存储单元用于将二维网格化后的数据进行存储,企业涉己行为数据和企业涉他数据使用分布式存储;数据分析服务单元用于根据产业化分析指令,调取企业数据存储单元中对应的行业、地域企业的企业涉己行为数据和企业涉他数据,以及关联行业、地域企业的企业涉他数据组成分析数据集,输入预构建的产业化分析模型,完成产业化分析;数据呈现单元用于将数据分析服务单元的分析结果进行呈现。
[0006]本专利技术的工作原理:本专利技术基于企业统一社会信用代码库,企业统一社会信用代码的编号规则,以及企业工商公示信息查询系统的数据,对企业的产业划分进行初步拟合确认。在对产业进行初步拟合确认后,再根据企业涉己行为数据、企业涉他数据对企业行业类别特征进行二次修正,确定企业的产业关系。本专利技术对企业涉己行为数据、企业涉他数据进行区分并分别存储,以便于数据调度,组成数据集,根据既有的分析模型,完成产业化分析。本专利技术能够高效、高精度的完成产业化分析。
[0007]统一社会信用代码:十八位的阿拉伯数字和大写英文字母构成(不包括 I、O、Z、S、V)组成其中:第1位:为登记管理部门代码,使用阿拉伯数字或大写字母表示;第2位:为机构类别代码,使用阿拉伯数字或大写字母表示,登记管理部门根据实际情况研究确定本部门登记机构类型;第3

8位(共6位):为登记管理机构行政区划码,使用阿拉伯数字表示,按照 GB/T2260 中华人民共和国行政区划代码及行政管理部门的规定;第一层即前2位代码表示省、自治区、直辖市、特别行政区。
[0008]第二层即中间2位代码表示市、地区、自治州、盟、直辖市所辖市辖区/县汇总码、省(自治区)直辖县级行政区划汇总码,其中:———01~20、51~70表示市,01、02还用于表示直辖市所辖市辖区、县汇总码;———21~50表示地区、自治州、盟;———90表示省(自治区)直辖县级行政区划汇总码。
[0009]第三层即后2位表示县、自治县、县级市、旗、自治旗、市辖区、林区、特区,其中:———01~20表示市辖区、地区(自治州、盟)辖县级市、市辖特区以及省(自治区)直辖县级行政区划;中的县级市,01通常表示市辖区汇总码;———21~80表示县、自治县、旗、自治旗、林区、地区辖特区;———81~99表示省(自治区)辖县级市。
[0010]为保证数字码的唯一性,因行政区划发生变更而撤销的数字码不再赋予其他行政区划。
[0011]字母代码的编制原则和结构行政区划字母代码(简称字母码)遵循科学性、统一性、实用性编码原则,参照县及县以上行政区划名称的罗马字母拼写,取相应的字母编制。
[0012]省、自治区、直辖市、特别行政区的字母码用两位大写字母表示。市、地区、自治州、盟、县、自治县、县级市、旗、自治旗、市辖区、林区、特区的字母码用三位大写字母表示。
[0013]部分行政区划字母代码采用了 GB/T15514—1998或GB/T7407—1997中的字母码,在代码表中用*号标出。行政区划名称的罗马字母拼写一般采用汉语地名的罗马字母拼写;
但 当行政区划名称以蒙古语第9

第17位:为主体标识码(组织机构代码),使用阿拉伯数字或大写字母表示,按照 GB 11714 全国组织机构代码编制规则编制;第18位:为校验码,使用阿拉伯数字或大写字母表示,计算方法参照 GB/T17710。
[0014]上述方案中,为优化,进一步地,所述多源异构数据采集单元采集统一社会信用代码数据、统一社会信用代码机构产生的数据。
[0015]进一步地,产业化数据处理单元还包括多源异构数据智能解析处理,包括如下步骤:步骤a,定义多源异构数据为,多源异构数据降维至,预定义参数值、和,正整数M为特征种类数,定义高维数据X的投影矩阵P∈K
×
V,V为数据的维数;步骤b,定义近似性矩阵,其中为第m个种类特征的数据集,为转置运算后的数据集;步骤c,初始化m=1;步骤d,根据计算投影矩阵,其中为预定义参数值,,D为S的对角度矩阵;步骤e,迭代更新m=m+1,根据,计算更新S后,返回执行步骤d;其中,,β为预定义参数值,为预定义参数值,i为正整数,N为样本个数;步骤f,如m=M,则执行步骤g;步骤g,输出各多源异构数据的降维矩阵;步骤h,将降维后的多源异构数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于企业社会信用代码的多源数据产业化分析系统,其特征在于:所述基于企业社会信用代码的多源数据产业化分析系统包括:分布设置的多源异构数据采集单元,与多源异构数据采集单元一一连接的完成数据虚拟化的多源异构数据处理单元,多源异构数据处理单元连接企业数据存储单元,还包括云服务器中设置的数据分析服务单元、数据呈现单元;多源异构数据处理单元包括统一社会信用代码内部分析单元,以及产业化数据处理单元;统一社会信用代码内部分析单元包括内部代码特征识别分析子单元,以及企业行业类别分析子单元;内部代码特征识别分析子单元用于对统一社会信用代码进行内部识别分析,分析提取包括登记管理部门、企业类别、企业行政区域、主体身份标识码特征在内的特征数据;企业行业类别分析子单元用于以企业行业类别特征、企业行政区域特征为二元特征进行数据分集,确定企业二元特征参数;其中企业行业类别特征以登记管理部门特征、企业类别特征为依据,根据预定义的权重,进行加权拟合;产业化数据处理单元包括数据分集子单元、数据归属分析子单元、企业行业类别特征二次修正处理单元;数据分析子单元用于完成数据分集分类,数据归属分析子单元应用于分析企业数据与企业行为的关联性,将企业数据区分为与企业自身有关的,定义为企业涉己行为数据,与非企业自身业务相关的,定义为企业涉他数据;企业行业类别特征二次修正处理单元用于根据企业涉己行为数据、企业涉他数据,对企业行业类别特征进行二次修正处理;企业数据存储单元包括二维网格单元和数据存储单元,二维网格单元用于根据企业行业类别特征、企业行政区域特征进行二维网络;数据存储单元用于将二维网格化后的数据进行存储,企业涉己行为数据和企业涉他数据使用分布式存储;数据分析服务单元用于根据产业化分析指令,调取企业数据存储单元中对应的行业、地域企业的企业涉己行为数据和企业涉他数据,以及关联行业、地域企业的企业涉他数据组成分析数据集,输入预构建的产业化分析模型,完成产业化分析;数据呈现单元用于将数据分析服务单元的分析结果进行呈现。2.根据权利要求1所述的基于企业社会信用代码的多源数据产业化分析系统,其特征在于:所述多源异构数据采集单元采集统一社会信用代码数据、统一社会信用代码机构产生的数据。3.根据权利要求1所述的基于企业社会信用代码的多源数据产业化分析系统,其特征在于:产业化数据处理单元还包括多源异构数据智能解析处理,包括如下步骤:步骤a,定义多源异构数据为,多源异构数据降维至,预定义参数值、和,正整数M为特征种类数,定义高维数据X的投影矩阵P∈K
×
V,V为数据的维数;步骤b,定义近似性矩阵,其中为第m个种类特征的数据集,为转置运算后的数据集;
步骤c,初始化m=1;步骤d,根据计算投影矩阵,其中为预定义参数值,,D为S的对角度矩阵;步骤e,迭代更新m=m+1,根据,计算更新S后,返回执行步骤d;其中,,β为预定义参数值,为预定义参数值,i为正整数,N为样本个数;步骤f,如m=M,则执行步骤g;步骤g,输出各多源异构数据的降维矩阵;步骤h,将降维后的多源异构数据进行归属分类。4.根据权利要求1所述的基于企业社会信用代码的多源数据产业化分析系统,其特征在于:产业化分析模型的构建包括:步骤1,确定评价产业化分析指标和对应权重,将产业化分析指标由下至上分为第一级指标评价特征、第二级指标评价特征、第三级指标评价特征;第一级指标评价特征值,其中,为第一级指标的第ix项评价特征值,为第一级指标的第ix项价特征值的权重数, mx 为第一级价特征值的项数;第二级指标评价特征值,其中,为第一级指标对应第二级指标的第jx类评价特征值,为第一级指标对应第二级指标的第jx类评价特征值的权重数,nx为第一级指标对应第二级指标的评价特征值的项数;第三级指标评价特征值,其中,为第二级指标对应第三级指标的第kx类评价特征值,为第二级指标对应第三级指标的第kx类评价特征值的权重数, qx为第二级指标对应第三级指标的评价特征值的项数;步骤2,依据步骤1的各项产业化分析指标,使用预定义独立的mq种评价方法对产业化分析中产业下的nq个细分产业进行预评价,对预评价结果进行近似性检验,如果近似性检验结果为不具有相似性,则执行步骤4,否则执行步骤3;步骤3,任选将步骤2中的2种评价方法进行近似性检验,将近似性检验定义为相似的择1留用,遍历步骤2中的评价方法,完毕后执行步骤4;步骤4,根据最终得到的各种评价方法的预评价结果,运用至少2种组合方法对预评价结果进行组合评价;步骤5,将组合评价结果和预评价结果作为一个结果集合,进行近似性排序值;
步骤6,定义表示第kq种组合评价方法的组合评价结果与所有预评价结果的近似性系数;其中,,;,,;为第iq细分产业在第jq种预评价方法排序结果规范后的取值,为第iq细分产业在第kq种组合评价方法排序结果规范后的取值,nq为细分产业的个数,mq为预评价方法数...

【专利技术属性】
技术研发人员:杨弋丁春利王铮牛颢髙屹嵩杨显化姚晗龙树全魏兵兵王舒李浩廖建雄唐山周文安聂珊丁忠卫
申请(专利权)人:四川省标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1