【技术实现步骤摘要】
核心数据识别方法及系统
[0001]本专利技术是关于自然语言处理
,特别是关于一种核心数据识别方法及系统。
技术介绍
[0002]核心数据的识别是很多企业数据管理中的工作重点,当前大部分企业都是依赖人工的方式进行核心数据的识别,普遍缺少通过技术手段开展核心数据识别的方式,当前人工识别这种方法占用业务人员大量的工作时间,效率比较低。
[0003]公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
[0004]本专利技术的目的在于提供一种核心数据识别方法及系统,其构建了核心数据识别模型,基于该核心数据识别模型可以快速自动识别出核心数据。
[0005]为实现上述目的,本专利技术提供了一种核心数据识别方法,其包括:确定核心数据的评判因素;根据所述核心数据的评判因素划分出核心数据的各个判断因子以及所述各个判断因子的权重从而构建出核心数据识别模型;确定所述各个判断因子的算法模型;导入待 ...
【技术保护点】
【技术特征摘要】
1.一种核心数据识别方法,其特征在于,包括:确定核心数据的评判因素;根据所述核心数据的评判因素划分出核心数据的各个判断因子以及所述各个判断因子的权重从而构建出核心数据识别模型;确定所述各个判断因子的算法模型;导入待识别核心数据的数据资源;根据所述核心数据识别模型以及所述算法模型对导入的数据资源进行核心数据的识别。2.如权利要求1所述的核心数据识别方法,其特征在于,所述评价因素包括:数据覆盖的系统范围、数据的业务关联性、数据对决策的影响程度、数据与企业级数据模型的关联度、数据的安全敏感度;所述判断因子包括:数据覆盖范围因子、业务关联性因子、指标关联性因子、数据共享性因子以及管理关联性因子。3.如权利要求2所述的核心数据识别方法,其特征在于,所述核心数据识别模型为:其中,M为核心数据系数的值,A是所述数据覆盖范围因子的值,f1是所述数据覆盖范围因子的权重值,B是所述业务关联性因子的值,f2是所述业务关联性因子的权重值,C是所述指标关联性因子的值,f3是所述指标关联性因子的权重值,D是所述数据共享性因子的值,f4是所述数据共享性因子的权重值,E是所述管理关联性因子的值,f5是所述管理关联性因子的权重值。4.如权利要求1所述的核心数据识别方法,其特征在于,所述各个判断因子的算法模型包括:语义相似度算法模型、语法相似度算法模型、语料向量相似度算法模型。5.如权利要求1所述的核心数据识别方法,其特征在于,导入待识别核心数据的数据资源包括:从powerdesigner数据导入接口、erwin数据导入接口、xml数据导入接口、word数据导入接口、或excel数据导入接口直接导入待识别核心数据的数据资源,且通过oracle数据接口、mysql数据接口、或db2数据接口直接从数据库中获取元数据信息,将该元数据...
【专利技术属性】
技术研发人员:周春雷,季良,董新微,梁云丹,贾崟,张玮,王婷,张璧君,黄怡,
申请(专利权)人:国家电网有限公司大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。