一种基于大数据技术的政务数据质量评估和异常数据修复技术制造技术

技术编号:21571395 阅读:84 留言:0更新日期:2019-07-10 15:22
本发明专利技术公开了数据分析技术领域的一种基于大数据技术的政务数据质量评估和异常数据修复技术,先建立建立数据库,再进行数据质量评估,最后进行数据质量修复;本发明专利技术通过对数据字段进行空值、值域、规范、逻辑、引用性、重复数据检查,从数据完整性、关联性、唯一性、准确性、一致性以及规范性六个维度综合评估数据质量,并生产数据质量评估报告,由使用者对数据进行手工修复或规则修复或深度学习修复,帮助政府打破内部数据壁垒、盘活数据资产、提升数据价值,对外提供统一的智能化数据服务,进一步深挖和释放大数据的价值红利。

A Technology of Government Data Quality Assessment and Heterogeneous Data Repair Based on Big Data Technology

【技术实现步骤摘要】
一种基于大数据技术的政务数据质量评估和异常数据修复技术
本专利技术涉及数据分析
,具体涉及一种基于大数据技术的政务数据质量评估和异常数据修复技术。
技术介绍
项目基于PDCA(Plan,Do,Check,Act,美国质量管理专家休哈特博士,后由戴明采纳普及)的质量管理方法、DQAF(DataQualityAssessmentFramework,IMF联合世界银行公布了国际通用的数据质量评估框架)的数据质量评估模型、DAMA(国际数据管理协会)数据管理职能框架以及基于深度学习的异常数据修复技术,建立完整的大数据科学治理体系和标准,保证数据质量,提升政府的服务效能,保障数据基础设施这条高速公路高效、畅通,为建设智慧政府夯实基础。目前各个政府部门都有相关的数据库系统,并切割管理,造成政府信息不畅通,且政府数据库的数据杂乱,在大量的数据中存在各类问题无不好查找和发现,极易造成数据缺失和不准确,比如人口库中身份证号码漏填或填写不正确,法人库中相关信息不完整或错误等,采用本大数据分析和评估方法,整个各个政府信息平台,从数据完整性、关联性、唯一性、准确性、一致性以及规范性六个维度综合评估数据质量。基于此,本专利技术设计了一种基于大数据技术的政务数据质量评估和异常数据修复技术,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种基于大数据技术的政务数据质量评估和异常数据修复技术,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于大数据技术的政务数据质量评估和异常数据修复技术,具体步骤如下:第一步,建立数据库所述数据库包括基础库和主题库,所述基础库建设的解决方案结合目前政府数据中存在的问题,按照统筹规划、一建共享的思路,以主要数据来源部门为基础,通过数据的采集交换、加工处理、信息整合和挖掘分析等手段,整合人社、民政、信用、公安、工商、卫生、教育、交通等其他委办局的数据,配套标准规范体系,构建基础库,并在此基础库上提供面向政府部门和社会公众的数据共享服务,对应的客户包括发改委、经信委、大数据局;所述主题库以整体战略规划和面向对象的方法论为依据,结合客户的业务特色,通过数据采集交换、数据整合、关联分析等手段,建立特色的主题库,盘活数据资产,为打造创新专题应用奠定基础,如市场监督管理局的法人库、特种设备库、食品库、药品库、证照库,公安局的人口库、证照库、刑事侦查库、治安管理库、出入境库,民政局的人口库、社会组织库、老龄库、福利库、婚姻库等;第二步,数据质量评估(1)通用规则管理所述通用规则管理包括通用、网络、日期、字符和数值五组规则,所述通用包括身份证、手机号码、邮箱、邮政编码和固定电话,所述身份证的规则表达式为^[1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}$|^[1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}([0-9]|X)$,所述身份证的规则描述为二代身份证,如420106198311136666,固定长度为18位,前17位为数字,最后一位为数字或者字母x,且必须为合法有效的身份证号码;一代身份证:如420106831113666,固定长度为15位,7至12位为六位年月日;所述手机号码的规则表达式为^1([38][0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|9[89])\d{8}$,所述手机号码的规则描述为如13666666666,以数字1开头,固定长度为11位;所述邮箱的规则表达式为^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$,所述邮箱的规则描述为如123@mail.com,邮箱名字中只能出现英文字母、数字和下划线且不能以下划线开头,并以.com、.cn、.edu等字符结尾;所述邮政编码的规则表达式为[1-9]\d{5}(?!\d),所述邮政编码的规则描述为开头不能为0,共6位的数字;所述固定电话的规则表达式为\d{3}-\d{8}|\d{4}-\d{7},所述固定电话的规则描述为如027-88880808-1,其中027为区号,1为分机号,以“-”隔开,区号和分机号可不填;所述网络包括IPv4地址、IPv6地址和MAC地址,所述IPv4地址的规则表达式为^((25[0-5]|2[0-4]\d|[01]?\d\d?)\.){3}(25[0-5]|2[0-4]\d|[01]?\d\d?)$,所述IPv4地址的规则描述为如000.000.000.000,由4个0~255的数值组成,以“.”隔开;所述IPv6地址的规则表达式为^([\da-fA-F]{1,4}:){7}[\da-fA-F]{1,4}$,所述IPv6地址的规则描述为如CDCD:910A:222:9:8475:11:390:2020,由8个四位十六进制的数值组成,以“:”隔开,同时支持简写或混合写法,但是建议使用标准写法;所述MAC地址的规则表达式为[0-9a-fA-F]{2}(:[0-9a-fA-F]{2}){5},所述MAC地址的规则描述为如00-00-00-00-00-00,以6个两位十六进制数组成,以“-”隔开;所述日期包括YYYY.MM.DD、YYYYMMDD、YYYY/MM/DD、YYYY年MM月DD日、YYYY、和YYYYMM,其中,所述YYYY为具体年份,所述MM为具体月份,所述DD为具体日期,所述YYYY/MM/DD的规则表达式为(\d{4})/(\d{1,2})/(\d{1,2});所述数值包括非负整数、整数、非负浮点数、浮点数、整数带百分号、浮点数百分号、整数带千分号和浮点数千分号,所述非负整数的规则表达式为^[1-9]\d*|0$,所述非负整数的规则描述为非负整数格式的字符串,如28;所述整数的规则表达式为^-?[1-9]\d*$,所述整数的规则描述为整数格式的字符串;所述非负浮点数的规则表达式^\d+(\.\d+)?$,所述非负浮点数的规则描述为为非负浮点数格式的字符串;所述浮点数的规则表达式为^(-?\d+)(\.\d+)?$,所述浮点数的规则描述为浮点数格式的字符串;(2)数据质量模型依据所述通用规则管理的关联关系建立数据质量模型,所述数据质量模型为基于DQAF的数据质量评估模型,所述数据质量评估模型包括实体表、关联关系和规则描述,所述实体表的实体表名称选自数据库,所述关联关系为主表和字表之间的关联关系,所述规则描述分为空值检查、值域检测、规范检查、逻辑检查、重复数据检查和引用完整性检查六组规则类型;(3)质量监测任务依据所述数据质量模型的名称,导出所述数据质量模型的各项数据,依据质量模型名称、质量模型描述、执行策略、最近执行状态和最近执行时间等对所述数据质量模型进行评估,完成质量检测任务;(4)质量监测报告依据所述质量检测任务,生成质量检测报告;(5)质量评估报告依据所述质量检测报告的内容,从数据完整性、关联性、唯一性、准确性、一致性以及规范性六个唯独综合评估数据质量,对所述数据库中的数据生成基于数据库类别和数据库名称的质量评估报告,所述质量评估报告包括质量评分、质量评分图和本文档来自技高网...

【技术保护点】
1.一种基于大数据技术的政务数据质量评估技术,其特征在于,具体步骤如下:第一步,建立数据库所述数据库包括基础库和主题库,所述基础库建设的解决方案结合目前政府数据中存在的问题,按照统筹规划、一建共享的思路,以主要数据来源部门为基础,通过数据的采集交换、加工处理、信息整合和挖掘分析等手段,整合人社、民政、信用、公安、工商、卫生、教育、交通等其他委办局的数据,配套标准规范体系,构建基础库,并在此基础库上提供面向政府部门和社会公众的数据共享服务,对应的客户包括发改委、经信委、大数据局;所述主题库以整体战略规划和面向对象的方法论为依据,结合客户的业务特色,通过数据采集交换、数据整合、关联分析等手段,建立特色的主题库,盘活数据资产,为打造创新专题应用奠定基础,如市场监督管理局的法人库、特种设备库、食品库、药品库、证照库,公安局的人口库、证照库、刑事侦查库、治安管理库、出入境库,民政局的人口库、社会组织库、老龄库、福利库、婚姻库等;第二步,数据质量评估(1)通用规则管理所述通用规则管理包括通用、网络、日期、字符和数值五组规则,所述通用包括身份证、手机号码、邮箱、邮政编码和固定电话,所述身份证的规则表达式为^[1‑9]\d{7}((0\d)|(1[0‑2]))(([0|1|2]\d)|3[0‑1])\d{3}$|^[1‑9]\d{5}[1‑9]\d{3}((0\d)|(1[0‑2]))(([0|1|2]\d)|3[0‑1])\d{3}([0‑9]|X)$,所述身份证的规则描述为二代身份证,如420106198311136666,固定长度为18位,前17位为数字,最后一位为数字或者字母x,且必须为合法有效的身份证号码;一代身份证:如420106831113666,固定长度为15位,7至12位为六位年月日;所述手机号码的规则表达式为^1([38][0‑9]|4[579]|5[0‑3,5‑9]|6[6]|7[0135678]|9[89])\d{8}$,所述手机号码的规则描述为如13666666666,以数字1开头,固定长度为11位;所述邮箱的规则表达式为^\w+([‑+.]\w+)*@\w+([‑.]\w+)*\.\w+([‑.]\w+)*$,所述邮箱的规则描述为如123@mail.com,邮箱名字中只能出现英文字母、数字和下划线且不能以下划线开头,并以.com、.cn、.edu等字符结尾;所述邮政编码的规则表达式为[1‑9]\d{5}(?!\d),所述邮政编码的规则描述为开头不能为0,共6位的数字;所述固定电话的规则表达式为\d{3}‑\d{8}|\d{4}‑\d{7},所述固定电话的规则描述为如027‑88880808‑1,其中027为区号,1为分机号,以“‑”隔开,区号和分机号可不填;所述网络包括IPv4地址、IPv6地址和MAC地址,所述IPv4地址的规则表达式为^((25[0‑5]|2[0‑4]\d|[01]?\d\d?)\.){3}(25[0‑5]|2[0‑4]\d|[01]?\d\d?)$,所述IPv4地址的规则描述为如000.000.000.000,由4个0~255的数值组成,以“.”隔开;所述IPv6地址的规则表达式为^([\da‑fA‑F]{1,4}:){7}[\da‑fA‑F]{1,4}$,所述IPv6地址的规则描述为如CDCD:910A:222:9:8475:11:390:2020,由8个四位十六进制的数值组成,以“:”隔开,同时支持简写或混合写法,但是建议使用标准写法;所述MAC地址的规则表达式为[0‑9a‑fA‑F]{2}(:[0‑9a‑fA‑F]{2}){5},所述MAC地址的规则描述为如00‑00‑00‑00‑00‑00,以6个两位十六进制数组成,以“‑”隔开;所述日期包括YYYY.MM.DD、YYYYMMDD、YYYY/MM/DD、YYYY年MM月DD日、YYYY、和YYYYMM,其中,所述YYYY为具体年份,所述MM为具体月份,所述DD为具体日期,所述YYYY/MM/DD的规则表达式为(\d{4})\/(\d{1,2})\/(\d{1,2});所述数值包括非负整数、整数、非负浮点数、浮点数、整数带百分号、浮点数百分号、整数带千分号和浮点数千分号,所述非负整数的规则表达式为^[1‑9]\d*|0$,所述非负整数的规则描述为非负整数格式的字符串,如28;所述整数的规则表达式为^‑?[1‑9]\d*$,所述整数的规则描述为整数格式的字符串;所述非负浮点数的规则表达式^\d+(\.\d+)?$,所述非负浮点数的规则描述为为非负浮点数格式的字符串;所述浮点数的规则表达式为^(‑?\d+)(\.\d+)?$,所述浮点数的规则描述为浮点数格式的字符串;(2)数据质量模型依据所述通用规则管理的关联关系建立数据质量模型,所述数据质...

【技术特征摘要】
1.一种基于大数据技术的政务数据质量评估技术,其特征在于,具体步骤如下:第一步,建立数据库所述数据库包括基础库和主题库,所述基础库建设的解决方案结合目前政府数据中存在的问题,按照统筹规划、一建共享的思路,以主要数据来源部门为基础,通过数据的采集交换、加工处理、信息整合和挖掘分析等手段,整合人社、民政、信用、公安、工商、卫生、教育、交通等其他委办局的数据,配套标准规范体系,构建基础库,并在此基础库上提供面向政府部门和社会公众的数据共享服务,对应的客户包括发改委、经信委、大数据局;所述主题库以整体战略规划和面向对象的方法论为依据,结合客户的业务特色,通过数据采集交换、数据整合、关联分析等手段,建立特色的主题库,盘活数据资产,为打造创新专题应用奠定基础,如市场监督管理局的法人库、特种设备库、食品库、药品库、证照库,公安局的人口库、证照库、刑事侦查库、治安管理库、出入境库,民政局的人口库、社会组织库、老龄库、福利库、婚姻库等;第二步,数据质量评估(1)通用规则管理所述通用规则管理包括通用、网络、日期、字符和数值五组规则,所述通用包括身份证、手机号码、邮箱、邮政编码和固定电话,所述身份证的规则表达式为^[1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}$|^[1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}([0-9]|X)$,所述身份证的规则描述为二代身份证,如420106198311136666,固定长度为18位,前17位为数字,最后一位为数字或者字母x,且必须为合法有效的身份证号码;一代身份证:如420106831113666,固定长度为15位,7至12位为六位年月日;所述手机号码的规则表达式为^1([38][0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|9[89])\d{8}$,所述手机号码的规则描述为如13666666666,以数字1开头,固定长度为11位;所述邮箱的规则表达式为^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$,所述邮箱的规则描述为如123@mail.com,邮箱名字中只能出现英文字母、数字和下划线且不能以下划线开头,并以.com、.cn、.edu等字符结尾;所述邮政编码的规则表达式为[1-9]\d{5}(?!\d),所述邮政编码的规则描述为开头不能为0,共6位的数字;所述固定电话的规则表达式为\d{3}-\d{8}|\d{4}-\d{7},所述固定电话的规则描述为如027-88880808-1,其中027为区号,1为分机号,以“-”隔开,区号和分机号可不填;所述网络包括IPv4地址、IPv6地址和MAC地址,所述IPv4地址的规则表达式为^((25[0-5]|2[0-4]\d|[01]?\d\d?)\.){3}(25[0-5]|2[0-4]\d|[01]?\d\d?)$,所述IPv4地址的规则描述为如000.000.000.000,由4个0~255的数值组成,以“.”隔开;所述IPv6地址的规则表达式为^([\da-fA-F]{1,4}:){7}[\da-fA-F]{1,4}$,所述IPv6地址的规则描述为如CDCD:910A:222:9:8475:11:390:2020,由8个四位十六进制的数值组成,以“:”隔开,同时支持简写或混合写法,但是建议使用标准写法;所述MAC地址的规则表达式为[0-9a-fA-F]{2}(:[0-9a-fA-F]{2}){5},所述MAC地址的规则描述为如00-00-00-00-00-00,以6个两位十六进制数组成,以“-”隔开;所述日期包括YYYY.MM.DD、YYYYMMDD、YYYY/MM/DD、YYYY年MM月DD日、YYYY、和YYYYMM,其中,所述YYYY为具体年份,所述MM为具体月份,所述DD为具体日期,所述YYYY/MM/DD的规则表达式为(\d{4})/(\d{1,2})/(...

【专利技术属性】
技术研发人员:练海荣
申请(专利权)人:苏州龙石信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1