【技术实现步骤摘要】
一种基于数据元智能匹配的数据质量检测方法
本专利技术涉及数据质量管理
,特别涉及一种基于数据元智能匹配的数据质量检测方法。
技术介绍
数据已经成为促进经济发展和技术创新的全新驱动力,为提升公共数据资源利用率,加速政务数据开放已成趋势。如何确保海量数据的质量,提高数据的权威性和准确性成了信息处理领域重要的研究方向。政务数据具有多样性,变化快,数据量大的特点,但是政务数据还要求具有权威性,这就对数据提出更高更严格的要求。但由于数据存在采集、加工、分析、保存、传输等阶段,且时间跨度大,存在难追溯,人员量大,不可避免造成数据存在质量问题。因此,对大量的、千差万别的政务数据的高效、通用的质量检测,问题可视化处理对帮助政府和社会更快、更直观地认识数据、理解数据、利用数据显得尤为重要。基于上述问题,本专利技术提出了一种基于数据元智能匹配的数据质量检测方法。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于数据元智能匹配的数据质量检测方法。本专利技术是通过如下技术方案 ...
【技术保护点】
1.一种基于数据元智能匹配的数据质量检测方法,其特征在于:包括以下步骤:/n第一步,进行大数据分析,汇总政务数据中数据元信息,形成标准数据元格式,维护到数据元标准管理系统;/n第二步,将利用搜索服务器ElasticSearch对数据元进行分词处理,选择需要检测的数据库表;/n第三步,录入数据源/n通过数据源管理系统建立数据源信息,维护需要检测的数据库;/n第四步,进入任务调度系统,实现信息项的自动匹配,匹配完成进入人工补全模块,形成检查实例,执行检查实例并发送检查结果。/n
【技术特征摘要】
1.一种基于数据元智能匹配的数据质量检测方法,其特征在于:包括以下步骤:
第一步,进行大数据分析,汇总政务数据中数据元信息,形成标准数据元格式,维护到数据元标准管理系统;
第二步,将利用搜索服务器ElasticSearch对数据元进行分词处理,选择需要检测的数据库表;
第三步,录入数据源
通过数据源管理系统建立数据源信息,维护需要检测的数据库;
第四步,进入任务调度系统,实现信息项的自动匹配,匹配完成进入人工补全模块,形成检查实例,执行检查实例并发送检查结果。
2.根据权利要求1所述的基于数据元智能匹配的数据质量检测方法,其特征在于:所述第一步中,数据元属性主要包含数据元名称,数据类型,数据格式,数据集和数据长度;政务数据元目录包括人员类,机构类,位置类,时间类,公文类,金融类和其它类。
3.根据权利要求1所述的基于数据元智能匹配的数据质量检测方法,其特征在于:所述第二步中,将数据元核心信息,包括主键和名称,同步到搜索服务器ElasticSearch进行分词处理,分词处理实现步骤如下:
S1.首先将数据提交到ElasticSearch数据库中;
S2.通过分词控制器将对应的语句分词,将其权重和分词结果一并存入数据库;
S3.当用户搜索数据时候根据权重将搜索结果进行排名与打分,并将返回结果呈现给用户。
4.根据权利要求2所述的基于数据元智能匹配的数据质量检测方法,其特征在于:为了保证中英文情况下的正常匹配,所述步骤S2中,使用中文分词插件对标准数据元中文名称进行分词,构建中文字典;使用英文分词插件对标准数据元中英文名称进行分词,构建英文字典。
5.根据权利要求1所述的基于数据元智能匹配的数据质量检测方法,其...
【专利技术属性】
技术研发人员:孙延庆,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。