一种污染源的数据管理方法、数据管理系统以及电子设备技术方案

技术编号:36960053 阅读:17 留言:0更新日期:2023-03-22 19:20
本发明专利技术涉及环境监管技术领域,具体涉及一种污染源的数据管理方法、数据管理系统以及电子设备。本方案通过获取多个目标数据,其中,目标数据包括污染源数据和业务数据,然后根据行政区划对多个目标数据进行分组,得到行政区划对应的数据组;再对数据组内每两个目标数据的同一维度的数据项进行相似度计算,得到数据组内每两个目标数据之间的综合相似度值;然后通过计算数据组内每两个目标数据之间的综合相似度值;将综合相似度值满足预设条件的两个目标数据进行关联或者确定为重复数据。通过采用上述方法,有效解决对当前污染源数据和业务数据中重复数据的识别,实现污染源数据与业务数据的有效关联。据的有效关联。据的有效关联。

【技术实现步骤摘要】
一种污染源的数据管理方法、数据管理系统以及电子设备


[0001]本专利技术涉及环境监管
,具体涉及一种污染源的数据管理方法、数据管理系统以及电子设备。

技术介绍

[0002]环境管理业物中,污染源是核心管理对象,也是串联起各类业务的主体。在实际环境信息化业务建设过程当中尚未建立统一污染源管理的机制,环境部推动的固定源管理模式也还没能发挥作用,特别是已建的信息系统,几乎都没能和污染源信息关联起来。
[0003]目前,现有的企业通过建设数据中台或大数据平台,数据中台或大数据平台的核心模块是建立污染源一企一档,基于业务系统关联的数据来呈现污染源的全生命周期数据,对于目前的污染源数据和业务信息数据,是通过冗余重复数据消除的方法,即基于不同数据在同样位置的文字的相同程度,来判断污染源数据和业务信息数据中是否存在重复文字,若是,则将污染源数据和业务信息数据进行串联。但是采用此方法对于重复文字的识别率低,并且无法对多特征的数据进行识别,使得污染源数据和业务信息数据无法有效串联起来。

技术实现思路

[0004]本专利技术提供了一种污染源的数据管理方法、数据管理系统以及电子设备,解决了现有技术中对污染源数据和业务信息数据中重复数据的识别率低的问题。
[0005]根据第一方面,一种实施例中提供一种污染源的数据管理方法,包括:
[0006]获取多个目标数据,所述多个目标数据包括多个污染源数据和/或多个业务数据;每个所述污染源数据和业务数据中均包括多个维度的数据项,所述多个维度的数据项包括:公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个;
[0007]根据行政区划对所述多个目标数据进行分组,得到行政区划对应的数据组;
[0008]对数据组内每两个目标数据的同一维度的数据项进行相似度计算,得到数据组内每两个目标数据之间多个维度的数据项的相似度值;
[0009]基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值,得到数据组内每两个目标数据之间的综合相似度值;
[0010]分别判断每两个目标数据之间的综合相似度值是否满足预设条件,若是则将这两个目标数据关联或确定为重复数据。
[0011]在一种能够实现的实施方式中,所述获取多个目标数据,包括:
[0012]获取多个污染源信息以及多个业务污染源信息;
[0013]按预设的数据格式将所述污染源信息转换为污染源数据,按预设的数据格式将所述业务污染源信息转换为业务数据;所述污染源数据和所述业务数据分别用于进行重复数据的识别。
[0014]在一种能够实现的实施方式中,所述对数据组内每两个目标数据的同一维度的数
据项进行相似度计算,包括:
[0015]对数据组内每两个目标数据的公司名称和公司地址分别采用第一相似度记算方法进行相似度计算;
[0016]对数据组内每两个目标数据的企业信用代码、法人姓名和联系方式分别采用第二相似度计算方法进行相似度计算;所述第二相似度计算方法的计算量低于第一相似度记算方法。
[0017]在一种能够实现的实施方式中,所述方法还包括:
[0018]对于不同行政区划对应的数据组,通过多进程运算并行对不同数据组内每两个目标数据的同一维度的数据项进行相似度计算。
[0019]在一种能够实现的实施方式中,所述基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值,得到数据组内每两个目标数据之间的综合相似度值,包括:
[0020]根据不同维度数据项预设的权重占比确定每个维度的数据项的相似度的权重相似度值;
[0021]将目标数据所有维度的数据项的权重相似度值进行求和,得到所述目标数据的综合相似度值。
[0022]在一种能够实现的实施方式中,所述分别判断每两个目标数据之间的综合相似度值是否满足预设条件,包括:
[0023]分别将每两个目标数据之间的综合相似度值与预设的经验参考值进行对比,若所述综合相似度值大于或等于所述预设的经验参考值,则确定目标数据之间的综合相似度值满足预设条件,若所述综合相似度值小于所述预设的经验参考值,则确定目标数据之间的综合相似度值不满足预设条件。
[0024]在一种能够实现的实施方式中,所述分别判断每两个目标数据之间的综合相似度值是否满足预设条件,若是则将这两个目标数据关联或确定为重复数据,包括:
[0025]所述数据组包括污染源数据和业务数据;分别判断每个污染源数据和业务数据组合的综合相似度值是否满足预设条件,若是则将所述污染源数据和业务数据进行关联;和/或,
[0026]所述数据组包括多个污染源数据;分别判断每两个污染源数据之间的综合相似度值是否满足预设条件,若是则保留数据项信息最全的一个污染源数据,删除另一个污染源数据;和/或,
[0027]所述数据组包括多个业务数据;分别判断每两个业务数据之间的综合相似度值是否满足预设条件,若是则保留数据项信息最全的一个业务数据,删除另一个业务数据。
[0028]根据第二方面,一种实施例中提供一种污染源的数据管理系统,包括:
[0029]获取模块,用于获取多个目标数据,所述多个目标数据包括多个污染源数据和/或多个业务数据;每个所述污染源数据和业务数据中均包括多个维度的数据项,所述多个维度的数据项包括:公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个;
[0030]分组模块,用于根据行政区划对所述多个目标数据进行分组,得到行政区划对应的数据组;
[0031]相似度计算模块,用于对数据组内每两个目标数据的同一维度的数据项进行相似
度计算,得到数据组内每两个目标数据之间多个维度的数据项的相似度值;
[0032]综合相似度计算模块,用于基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值,得到数据组内每两个目标数据之间的综合相似度值;
[0033]处理模块,用于分别判断每两个目标数据之间的综合相似度值是否满足预设条件,若是则将这两个目标数据关联或确定为重复数据。
[0034]根据第三方面,一种实施例中提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
[0035]根据第四方面,一种实施例中提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行实现所述方法的步骤。
[0036]据上述实施例的一种污染源的数据管理方法、数据管理系统以及电子设备,通过获取多个目标数据,其中,目标数据包括污染源数据和业务数据,并且,污染源数据和业务数据均包括有多个维度的数据项,然后根据行政区划对多个目标数据进行分组,得到行政区划对应的数据组;再对数据组内每两个目标数据的同一维度的数据项进行相似度计算,得到数据组内每两个目标数据之间的综合相似度值;然后通过计算数据组内每两个目标数据之间的综合相似度值;将综合相似度值满足预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种污染源的数据管理方法,其特征在于,包括:获取多个目标数据,所述多个目标数据包括多个污染源数据和/或多个业务数据;每个所述污染源数据和业务数据中均包括多个维度的数据项,所述多个维度的数据项包括:公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个;根据行政区划对所述多个目标数据进行分组,得到行政区划对应的数据组;对数据组内每两个目标数据的同一维度的数据项进行相似度计算,得到数据组内每两个目标数据之间多个维度的数据项的相似度值;基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值,得到数据组内每两个目标数据之间的综合相似度值;分别判断每两个目标数据之间的综合相似度值是否满足预设条件,若是则将这两个目标数据关联或确定为重复数据。2.如权利要求1所述的污染源的数据管理方法,其特征在于,所述获取多个目标数据,包括:获取多个污染源信息以及多个业务污染源信息;按预设的数据格式将所述污染源信息转换为污染源数据,按预设的数据格式将所述业务污染源信息转换为业务数据;所述污染源数据和所述业务数据分别用于进行重复数据的识别。3.如权利要求1所述的污染源的数据管理方法,其特征在于,所述对数据组内每两个目标数据的同一维度的数据项进行相似度计算,包括:对数据组内每两个目标数据的公司名称和公司地址分别采用第一相似度记算方法进行相似度计算;对数据组内每两个目标数据的企业信用代码、法人姓名和联系方式分别采用第二相似度计算方法进行相似度计算;所述第二相似度计算方法的计算量低于第一相似度记算方法。4.如权利要求1所述的污染源的数据管理方法,其特征在于,所述方法还包括:对于不同行政区划对应的数据组,通过多进程运算并行对不同数据组内每两个目标数据的同一维度的数据项进行相似度计算。5.如权利要求1所述的污染源的数据管理方法,其特征在于,所述基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值,得到数据组内每两个目标数据之间的综合相似度值,包括:根据不同维度数据项预设的权重占比确定每个维度的数据项的相似度的权重相似度值;将目标数据所有维度的数据项的权重相似度值进行求和,得到所述目标数据的综合相似度值。6.如权利要求1所述的污染源的数据管理方法,其特征在于,所述分别判断每两个目标数据之间的综合相似度值是否满足预设条件,包括:分别将每两个目标数据之间的综合相似度值与预设...

【专利技术属性】
技术研发人员:刘术军常伟梁必文康庆万鹏彭道发易枭奇
申请(专利权)人:深圳博沃智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1