【技术实现步骤摘要】
一种企业公开数据去重和合并的方法、装置、电子设备
[0001]本专利技术涉及数据去重
,尤其涉及一种企业公开数据去重和合并的方法、装置、电子设备。
技术介绍
[0002]企业公开数据是工商部门适时公布的有关企业经营和风险方面的重要信息,而企业的主要人员比如董事、监事、高管等则是经济交往中需要重点关注的。
[0003]目前,针对企业公开数据的去重与合并,基本上采用不处理或者人工干预的方式。人工干预的方式通过软件识别出可能需要合并信息,然后再人工干预是否真的需要合并,但是人工投入较大且也容易出错。
[0004]因此,提出一种企业公开数据去重和合并的方法、装置、电子设备。
技术实现思路
[0005]本说明书提供一种企业公开数据去重和合并的方法、装置、电子设备,解决了人工或固定规则软件识别过程中局限性的问题。
[0006]本申请提供的一种企业公开数据去重和合并的方法采用如下的技术方案,包括:
[0007]获取企业公开数据、第一关系疏密值,所述企业公开数据包括身份信息;
[ ...
【技术保护点】
【技术特征摘要】
1.一种企业公开数据去重和合并的方法,其特征在于,包括:获取企业公开数据、第一关系疏密值,所述企业公开数据包括身份信息;判断所述身份信息是否重复;当判断结果是重复,分析得到重复身份信息的历史重复分布;基于所述历史重复分布得到所述重复身份信息的历史权重;结合所述历史权重、第一关系疏密值判断所述重复身份信息是否重复;当判断结果是重复,将所述重复身份信息进行标记;将相同标记的重复身份信息进行合并。2.如权利要求1所述的企业公开数据去重和合并的方法,其特征在于,所述获取第一关系疏密值,包括:获取图数据库;基于图数据库得到所述身份信息的所述第一关系疏密值、第二关系疏密值。3.如权利要求2所述的企业公开数据去重和合并的方法,其特征在于,所述判断所述身份信息是否重复,包括:当判断结果是不重复,得到未重复身份信息;获取中文语料库;基于所述中文语料库建立身份信息预测模型;将所述未重复身份信息输入至所述身份信息预测模型,预测所述未重复身份信息的新生成重复分布;基于所述新生成重复分布得到所述未重复身份信息的新生成权重;结合所述新生成权重、所述第二关系疏密值判断所述未重复身份信息是否重复;当判断结果是重复,将所述未重复身份信息进行标记;将相同标记的未重复身份信息进行合并。4.如权利要求2所述的企业公开数据去重和合并的方法,其特征在于,所述将相同标记的重复身份信息进行合并,包括:将相同标记的重复身份信息合并到其中一项并保留;将剩余的所述相同标记的重复身份信息进行逻辑删除。5.如权利要求1所述的企业公开数据去重和合并的方法,其特征在于,所述历史权重、新生成权重,包括:获取历史重复分布、新生成重复分布、历史参数、新生成参数;将所述历史重复分布、历史参数输入挤压模型,得到历史权重;将所述新生成重复分布、新生成参数输入挤压模型,得到新生成权重。6.一种企业公开数据去重和合并的装置,其特征在于,包括:第一获取模块,用以获取企业公开数据、第一关系疏...
【专利技术属性】
技术研发人员:晏永年,檀海松,余畅池,
申请(专利权)人:赢火虫信息科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。