【技术实现步骤摘要】
数据资产智能匹配的实现方法、装置及设备
[0001]本专利技术涉及数据处理
,具体地涉及一种数据资产智能匹配的实现方法、一种数据资产智能匹配的实现装置、一种数据资产智能匹配的实现设备以及一种计算机可读存储介质。
技术介绍
[0002]数据资产是指由个人或企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。数据资产被认为是数字时代的最重要的资产形式之一。元数据是构建数据资产的基础信息,元数据采集过程中,对于新增元数据采集,存在与原有元数据内容重复或相似等情况,元数据的内容重复或相似对数据资产的唯一性和权威性有较大影响。针对上述问题,提出了数据资产智能识别与匹配的方案,通过算法识别数据资产重复、相似情况,并将结果提交人工判定,再根据人工判定结果自动修正算法相应参数,以逐步提升数据资产智能匹配精准度。从而达到智能识别数据资产唯一性和权威性的目的。
[0003]数据资产智能识别本质是通过算法识别相似的数据资产和数据。现有技术中主要靠人工数据资产盘点,效率较低。针对数据资产智能识别,目前了 ...
【技术保护点】
【技术特征摘要】
1.一种数据资产智能匹配的实现方法,其特征在于,该方法包括:将数据资产的名称和字段在数据资产库中进行匹配得到匹配结果;根据所述数据资产与所述匹配结果的名称相似率和字段重复率,计算所述数据资产对应的第一匹配性评价值;若归一化的第一匹配性评价值不为其范围的端点,则通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值;将所述第二匹配性评价值映射至所述范围的端点。2.根据权利要求1所述的方法,其特征在于,所述名称相似率通过以下步骤计算:根据数据资产与匹配结果的名称中连续一致字符个数和匹配结果的名称的总字符个数,得到所述名称相似率。3.根据权利要求1所述的方法,其特征在于,所述字段重复率通过以下步骤计算:分别获取所述数据资产和匹配结果的字段集为第一列表和第二列表;获取所述第一列表和第二列表中的相同字段的个数;根据所述相同字段的个数和第二列表中的字段个数得到所述字段重复率。4.根据权利要求1所述的方法,其特征在于,通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值,包括:确定所述名称相似率和字段重复率的初始权重和权重调整步进;根据所述权重调整步进调整所述初始权重,以每次调整后的权重计算一个匹配性评价值;以得到的多个匹配性评价值中的最大值作为所述第二匹配性评价值。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:以所述第二匹配性评价值所对应的权重为最优权重;针对于所述数据资产具有关联关系的其他数据资产,所述通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值的步骤被替换为:通过名...
【专利技术属性】
技术研发人员:王宁,张延生,朱拥军,牟岩,
申请(专利权)人:国能网信科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。