一种污染源的数据管理方法、数据管理系统以及电子设备技术方案

技术编号：36960053 阅读：17 留言：0更新日期：2023-03-22 19:20

本发明专利技术涉及环境监管技术领域，具体涉及一种污染源的数据管理方法、数据管理系统以及电子设备。本方案通过获取多个目标数据，其中，目标数据包括污染源数据和业务数据，然后根据行政区划对多个目标数据进行分组，得到行政区划对应的数据组；再对数据组内每两个目标数据的同一维度的数据项进行相似度计算，得到数据组内每两个目标数据之间的综合相似度值；然后通过计算数据组内每两个目标数据之间的综合相似度值；将综合相似度值满足预设条件的两个目标数据进行关联或者确定为重复数据。通过采用上述方法，有效解决对当前污染源数据和业务数据中重复数据的识别，实现污染源数据与业务数据的有效关联。据的有效关联。据的有效关联。

全部详细技术资料下载

【技术实现步骤摘要】
一种污染源的数据管理方法、数据管理系统以及电子设备

[0001]本专利技术涉及环境监管
，具体涉及一种污染源的数据管理方法、数据管理系统以及电子设备。

技术介绍

[0002]环境管理业物中，污染源是核心管理对象，也是串联起各类业务的主体。在实际环境信息化业务建设过程当中尚未建立统一污染源管理的机制，环境部推动的固定源管理模式也还没能发挥作用，特别是已建的信息系统，几乎都没能和污染源信息关联起来。
[0003]目前，现有的企业通过建设数据中台或大数据平台，数据中台或大数据平台的核心模块是建立污染源一企一档，基于业务系统关联的数据来呈现污染源的全生命周期数据，对于目前的污染源数据和业务信息数据，是通过冗余重复数据消除的方法，即基于不同数据在同样位置的文字的相同程度，来判断污染源数据和业务信息数据中是否存在重复文字，若是，则将污染源数据和业务信息数据进行串联。但是采用此方法对于重复文字的识别率低，并且无法对多特征的数据进行识别，使得污染源数据和业务信息数据无法有效串联起来。

技术实现思路

[0004]本专利技术提供了一种污染源的数据管理方法、数据管理系统以及电子设备，解决了现有技术中对污染源数据和业务信息数据中重复数据的识别率低的问题。
[0005]根据第一方面，一种实施例中提供一种污染源的数据管理方法,包括：
[0006]获取多个目标数据，所述多个目标数据包括多个污染源数据和/或多个业务数据；每个所述污染源数据和业务数据中均包括多个维度的数据项，所述多个维度的数据项包括：公司...

【技术保护点】

【技术特征摘要】
1.一种污染源的数据管理方法,其特征在于，包括：获取多个目标数据，所述多个目标数据包括多个污染源数据和/或多个业务数据；每个所述污染源数据和业务数据中均包括多个维度的数据项，所述多个维度的数据项包括：公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个；根据行政区划对所述多个目标数据进行分组，得到行政区划对应的数据组；对数据组内每两个目标数据的同一维度的数据项进行相似度计算，得到数据组内每两个目标数据之间多个维度的数据项的相似度值；基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值，得到数据组内每两个目标数据之间的综合相似度值；分别判断每两个目标数据之间的综合相似度值是否满足预设条件，若是则将这两个目标数据关联或确定为重复数据。2.如权利要求1所述的污染源的数据管理方法，其特征在于，所述获取多个目标数据，包括：获取多个污染源信息以及多个业务污染源信息；按预设的数据格式将所述污染源信息转换为污染源数据，按预设的数据格式将所述业务污染源信息转换为业务数据；所述污染源数据和所述业务数据分别用于进行重复数据的识别。3.如权利要求1所述的污染源的数据管理方法，其特征在于，所述对数据组内每两个目标数据的同一维度的数据项进行相似度计算，包括：对数据组内每两个目标数据的公司名称和公司地址分别采用第一相似度记算方法进行相似度计算；对数据组内每两个目标数据的企业信用代码、法人姓名和联系方式分别采用第二相似度计算方法进行相似度计算；所述第二相似度计算方法的计算量低于第一相似度记算方法。4.如权利要求1所述的污染源的数据管理方法，其特征在于，所述方法还包括：对于不同行政区划对应的数据组，通过多进程运算并行对不同数据组内每两个目标数据的同一维度的数据项进行相似度计算。5.如权利要求1所述的污染源的数据管理方法，其特征在于，所述基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值，得到数据组内每两个目标数据之间的综合相似度值，包括：根据不同维度数据项预设的权重占比确定每个维度的数据项的相似度的权重相似度值；将目标数据所有维度的数据项的权重相似度值进行求和，得到所述目标数据的综合相似度值。6.如权利要求1所述的污染源的数据管理方法，其特征在于，所述分别判断每两个目标数据之间的综合相似度值是否满足预设条件，包括：分别将每两个目标数据之间的综合相似度值与预设...

【专利技术属性】
技术研发人员：刘术军，常伟，梁必文，康庆，万鹏，彭道发，易枭奇，
申请(专利权)人：深圳博沃智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人