【技术实现步骤摘要】
一种多源主附实体结构模块化构建的处理方法
[0001]本专利技术涉及大数据应用
,特别是一种多源主附实体结构模块化构建的处理方法。
技术介绍
[0002]针对多种来源的表格数据,指标多样化,现有处理技术大多采用分源处理、分库存储的处理方法,这种处理方法主要存在以下几个问题:
[0003]1)指标多样,数据庞杂。由于大多采用分源处理、分库存储的处理方法,缺少统一用于表示数据关系的结构,无法形成表达数据关系的标准化指标体系,导致指标繁多,缺少统一体系,数据量庞大,且相对独立。
[0004]2)隐含关系不能自动发现、提取与存储。现有技术由于缺少主附实体的模块化构建机制,通常没有或很难建立多源数据之间的关联关系,导致数据相对独立,数据之间的隐含关系无法自动发现;缺少主附实体的自动化提取机制,导致数据之间的关系无法自动提取和存储。
[0005]3)数据相对独立,无法自增补。现有技术在存储数据时,通常很少区分相对不变的数据和经常变动的数据,针对这两类数据无法有针对性的分别处理,缺少有效的数据之间关系的自动识别与融合机制,也就无法做到数据的关联存储与自增补。
技术实现思路
[0006]本专利技术提供一种多源主附实体结构模块化构建的处理方法,用于解决不同来源的多期表格数据的主附实体结构自动构建与数据自动融合、主实体与附属实体应用场景记录、以及实体动态库自动成长等问题,为数据溯源、数据关联分析提供可行性的数据存储解决方案。
[0007]为解决上述技术问题,本专利技术所采取的技术方案 ...
【技术保护点】
【技术特征摘要】
1.一种多源主附实体结构模块化构建的处理方法,其特征在于,具体包括以下步骤:A1.从指标数据库IDB提取标准指标体系结构EIS,从实体题录项数据库EFDB提取主实体题录项MEFS,从原数据数据库OVDB提取数值项OV,利用单源主实体静态库自动识别构建器,形成主实体静态库指标结构,存入实体静态数据库RSDB;A2.从实体静态数据库RSDB提取主实体静态库指标结构信息,从实体动态数据库RVDB提取动态库实体指标结构信息,利用实体动态库自动识别构建器,构建最新动态库实体指标结构,并存入实体动态数据库RVDB;A3.从源B的实体题录项数据库EFDB提取附属实体题录项SEFS,从实体动态数据库RVDB提取动态库实体指标结构RVIS,利用附属实体自动加载判别器,判别附属实体是否融入实体动态数据库RVDB,并形成动态库临时实体指标结构RVIS';A4.从步骤A3读取动态库临时实体指标结构信息RVIS',从指标数据库IDB提取标准指标体系结构EIS,利用实体动态库自动成长器,根据附属实体情况,自动补充完善指标体系,促使动态库自动成长,并存入实体动态数据库RVDB;A5.从实体动态数据库RVDB读取动态库实体的相关信息,从源A的源应用场景数据库SDB读取源A的源、库、表应用场景的相关信息,从源B的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,利用实体动态库应用场景提取器,记录实体动态数据库中数据来自的源、库、主实体、附属实体、主附实体间的应用场景信息,存入实体动态应用场景数据库SRVDB。2.根据权利要求1所述的一种多源主附实体结构模块化构建的处理方法,其特征在于,步骤A1中所述主实体静态库指标结构的形成方法具体为:A11.从源A的实体题录项数据库EFDB中,读取未入库的主实体库个数,记为N1,令n1初始变量为1,n1为大于等于1的自然数,令指标结构变量P=False,令数据变量D=False;A12.从源A的实体题录项数据库EFDB中,读取第n1库的主实体题录项MEFS;从源A的指标数据库IDB,读取标准指标体系结构EIS;A13.判别源A的实体静态数据库RSDB是否存在,如果存在,则执行步骤A14;如果不存在,则执行步骤A15;A14.从实体静态数据库RSDB中,读取静态库实体指标结构RSIS,并利用机器算法,将静态库实体指标结构RSIS与步骤A12读取的标准指标体系结构EIS进行比对、融合操作,形成静态库实体临时指标结构RSIS';A15.依据步骤A12读取的标准指标体系结构EIS,创建实体静态数据库RSDB,将标准指标体系结构EIS赋值给静态库实体指标结构RSIS,将标准指标体系结构EIS作为静态库实体临时指标结构RSIS';A16.呈现静态库实体临时指标结构RSIS',进行人工校正,并确认;A17.判断静态库实体指标结构RSIS与静态库实体临时指标结构RSIS'是否一致,如果一致,直接跳转步骤A18执行;如果不一致,将静态库实体临时指标结构RSIS'作为最新静态库实体指标结构,置P=True,存入实体静态数据库RSDB;A18.从原数据数据库OVDB中,读取第n1库的数值项OV,置D=True,写入实体静态数据库RSDB;A19.如果n1<N1,执行n1+1赋值给n1,跳转到步骤A12执行;否则,跳转步骤A110执行;
A110.判断变量P和D,当P=True或D=True时,发送信号,启动实体动态库自动识别构建器开始工作。3.根据权利要求1所述的一种多源主附实体结构模块化构建的处理方法,其特征在于,步骤A2中所述最新实体指标结构的具体构建方法为:A21.实时监听,如果监听到单源主实体静态库自动化识别构建器的数据传送信号,则接收变量P和D的值;A22.如果P=True,则从实体动态数据库RVDB中,读取动态库实体指标结构RVIS,从实体静态数据库RSDB中,读取最新的静态库实体指标结构RSIS,跳转到步骤A23执行;如果P=False,则跳转到步骤A24执行;A23.根据设定规则,利用机器算法,将静态库实体指标结构...
【专利技术属性】
技术研发人员:李银生,王红,张朝宗,任雁,吴峰,聂永川,毋鹏杰,杨扬,刘淼,刘曼,
申请(专利权)人:河北省科学技术情报研究院河北省科技创新战略研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。