基于相似度值的实体编码方法、装置、设备及存储介质制造方法及图纸

技术编号:24996049 阅读:26 留言:0更新日期:2020-07-24 17:58
本发明专利技术涉及一种大数据技术领域,应用于智慧政务,揭露一种基于相似度值的实体编码方法、装置、设备及存储介质,其中方法包括:获取实体目录,并遍历实体目录,对实体目录执行去重处理,得到每个实体均具有唯一性的基础实体目录;对基础实体目录中的实体进行冲突检测,并判断实体冲突的类型,得到实体冲突类型,然后根据实体冲突类型,得到目标实体,并根据目标实体,对发生实体冲突对应的实体进行重新命名和编码。本发明专利技术还涉及区块链技术,结果数据存储于区块链中。本发明专利技术识别实体编码错误,以提高实体编码准确性。

【技术实现步骤摘要】
基于相似度值的实体编码方法、装置、设备及存储介质
本申请涉及大数据
,尤其涉及基于相似度值的实体编码方法、装置、设备及存储介质。
技术介绍
实体(Entity)是对现实对象的一种抽象与概括,实体可以是人、商品、企业、项目等。为实现对实体信息进行有效管理和应用,企业往往对实体赋予一个统一的编码(如对个人信息的管理,每个人都有唯一身份证号码进行识别)。在一些多个子部门协作的集团公司或者机构,由于其内部结构复杂,每个子部门(子机构)往往根据业务需要,采用其自己独立的编码方式,如此,使得这些集团公司或机构的实体与编码的关系一般有以下特点:(1)每个编码标识唯一一个实体;(2)不同实体可能有相同名称,但每个实体只有唯一一个编码;(3)即使是同一个实体,也可能有多个不同的名称;(4)不同的系统可能存在多套编码体系等。这导致实际对海量数据的实体信息进行管理过程中,会出现实体与编码出现冲突的情况,即每个实体不是对应唯一一个编码。为解决海量数据的实体信息管理过程中,会出现实体冲突的情况,即实体名称和实体编码缺乏唯一对应的关系,目前针对出现实体冲突的本文档来自技高网...

【技术保护点】
1.一种基于相似度值的实体编码方法,其特征在于,包括:/n获取实体目录,其中,所述实体目录包含若干实体,所述实体包括实体名称和所述实体名称对应的实体编码;/n遍历所述实体目录,并对所述实体目录中每个实体的唯一性进行检测,若存在不具备唯一性的实体,则执行去重处理,得到每个实体均具有唯一性的基础实体目录,其中,唯一性通过所述实体名称和所述实体编码的对应关系来确定;/n对所述基础实体目录中的实体进行冲突检测,得到冲突检测结果,若所述冲突检测结果为存在实体冲突,则判断所述实体冲突的冲突类型,得到实体冲突类型;/n根据所述实体冲突类型,得到目标实体,并根据所述目标实体,对发生所述实体冲突对应的实体进行重...

【技术特征摘要】
1.一种基于相似度值的实体编码方法,其特征在于,包括:
获取实体目录,其中,所述实体目录包含若干实体,所述实体包括实体名称和所述实体名称对应的实体编码;
遍历所述实体目录,并对所述实体目录中每个实体的唯一性进行检测,若存在不具备唯一性的实体,则执行去重处理,得到每个实体均具有唯一性的基础实体目录,其中,唯一性通过所述实体名称和所述实体编码的对应关系来确定;
对所述基础实体目录中的实体进行冲突检测,得到冲突检测结果,若所述冲突检测结果为存在实体冲突,则判断所述实体冲突的冲突类型,得到实体冲突类型;
根据所述实体冲突类型,得到目标实体,并根据所述目标实体,对发生所述实体冲突对应的实体进行重新命名和编码。


2.根据权利要求1所述的基于相似度值的实体编码方法,其特征在于,在所述获取实体目录之前,所述方法还包括:
获取待编码数据,对所述待编码数据进行预处理,得到结果数据;
通过正则匹配的方式,对所述结果数据进行正则匹配,并根据匹配成功的数据生成所述实体目录。


3.根据权利要求1所述的基于相似度值的实体编码方法,其特征在于,所述根据所述实体冲突类型,得到目标实体名称和编码,并根据所述目标实体名称和编码,对发生所述实体冲突对应的实体进行重新命名和编码包括:
若所述实体冲突类型为实体名称缺乏对应的实体编码,则将发生实体冲突的实体作为第一冲突实体,将没有发生实体冲突的实体作为第一基础实体;
统计所述第一冲突实体与每个所述第一基础实体的相似度值,得到第一相似度值集;
获取所述第一相似度集中数值最大的相似度值,作为目标相似度值,并判断所述目标相似度值是否高于预设阈值,若高于所述预设阈值,则判定所述目标相似度值所对应的两个实体为同一实体,并通过所述目标相似度值对应的第一基础实体对所述第一冲突实体进行编码。


4.根据权利要求1所述的基于相似度值的实体编码方法,其特征在于,所述根据所述实体冲突类型,得到目标实体,并根据所述目标实体,对发生所述实体冲突对应的实体进行重新命名和编码还包括:
若所述实体冲突类型为相同的实体名称对应不同的实体编码,则将发生实体冲突的实体作为第二冲突实体,并将所述第二冲突实体进行两两组合,得到第二冲突实体组合;
统计每个第二冲突实体组合中两个实体的相似度值,得到第二相似度集;
判断所述第二相似度集中是否存在高于预设阈值的相似度值,若存在,则判定相似度值高于所述预设阈值所对应的第二冲突组合中的两个实体为同一实体,并按照预设的方式对所述第二冲突实体进行重新编码。


5.根据权利要求1所述的基于相似度值的实体编码方法,其特征在于,所述根据所述实体冲突类型,得到目标实体,并根据所述目标实体,对发生所述实体冲突对应的实体进行重新命名和编码还包括:
若所述实体冲突类型为不同的实体名称对应相同的实体编...

【专利技术属性】
技术研发人员:崔德冠
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1