一种提高数据质量的方法及系统技术方案

技术编号:14844428 阅读:147 留言:0更新日期:2017-03-17 11:27
本发明专利技术提出了一种提高数据质量的方法,其包括:步骤101、获取用户需求特点;步骤103、确定用户适用数据质量维度;步骤105、根据所述用户适用数据质量维度对现有数据进行评估;步骤107、根据评估结果对所述现有数据进行处理。通过本发明专利技术可以为用户提供适应性的数据服务,并能根据用户自身的特点实时满足用户对数据质量的要求。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其涉及一种提高数据质量的方法及系统
技术介绍
数据质量指的是“数据对其在操作、决策支持和规划中扮演角色的适应程度”。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。然而,如何利用现有的数据,提高数据质量,满足不同企业的需求是当前面临的一个重要问题。
技术实现思路
为了解决上述问题,本专利技术提出了一种提高数据质量的方法,其包括:步骤101、获取用户需求特点;步骤103、确定用户适用数据质量维度;步骤105、根据所述用户适用数据质量维度对现有数据进行评估;步骤107、根据评估结果对所述现有数据进行处理。其中,在所述步骤101之前,还包括:通过对发起请求的用户的历史数据进行分析,获取用户需求特点。其中,所述数据质量维度包括覆盖性、实时性和准确性。其中,所述步骤103具体包括根据用户的需求特点确定所述用户的适用数据质量维度。其中,所述步骤105具体包括:用户适用的数据质量维度不同采用不同的评估方法。其中,所述步骤107具体包括:如果所述用户适用数据维度为覆盖性,并且所述数据质量无法满足要求,则使用数据自动修复技术,所述数据自动修复技术利用网络提供的海量数据及从其中获得的知识来对数据进行修复;如果所述适用数据维度为实时性,并且所述数据质量无法满足要求,则采用实体识别技术进行数据处理,其中所述实体识别用于找出描述现实世界同一实体的数据;如果所述适用数据维度为准确性,并且所述数据质量无法满足要求,则采用弱可用信息上的知识发现技术。其中,所述数据自动修复技术通过分析定义错误修复的语义蕴含与表现形式、自动修复的充分必要条件和基于WEB的自动修复模型,使用遗传算法实现查询关键词的自适应性调整,并利用图匹配的相关技术进行信息抽取,基于抽取出的信息进行数据的自动修复。本专利技术还提出了一种提高数据质量的系统,其包括:用户需求特点模块,其用于获取用户需求特点;维度确定模块,其用于确定用户适用数据质量维度;数据评估模块,其用于根据所述用户适用数据质量维度对现有数据进行评估;处理模块,其用于根据评估结果对所述现有数据进行处理。所述系统还包括判断模块,其用于判断当前数据质量是否满足要求。通过本专利技术可以为用户提供适应性的数据服务,并能根据用户自身的特点实时满足用户对数据质量的要求。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:附图1示出了根据本专利技术实施方式的一种提高数据质量的方法;附图2示出了根据本专利技术实施方式的一种提高数据质量的系统。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。根据本专利技术的实施方式,提出一种提高数据质量的方法,其包括:步骤101、获取用户需求特点;步骤103、确定用户适用数据质量维度;步骤105、根据所述用户适用数据质量维度对现有数据进行评估;步骤107、根据评估结果对所述现有数据进行处理。其中,在所述步骤101之前,还包括:通过对发起请求的用户的历史数据进行分析,获取用户需求特点。其中,所述数据质量维度包括覆盖性、实时性和准确性。其中,所述步骤103具体包括根据用户的需求特点确定所述用户的适用数据质量维度。其中,所述步骤105具体包括:用户适用的数据质量维度不同采用不同的评估方法。其中,所述步骤107具体包括:如果所述用户适用数据维度为覆盖性,并且所述数据质量无法满足要求,则使用数据自动修复技术,所述数据自动修复技术利用网络提供的海量数据及从其中获得的知识来对数据进行修复;如果所述适用数据维度为实时性,并且所述数据质量无法满足要求,则采用实体识别技术进行数据处理,其中所述实体识别用于找出描述现实世界同一实体的数据;如果所述适用数据维度为准确性,并且所述数据质量无法满足要求,则采用弱可用信息上的知识发现技术。其中,所述数据自动修复技术通过分析定义错误修复的语义蕴含与表现形式、自动修复的充分必要条件和基于WEB的自动修复模型,使用遗传算法实现查询关键词的自适应性调整,并利用图匹配的相关技术进行信息抽取,基于抽取出的信息进行数据的自动修复。数据质量评估技术:从数据质量的三个维度分别提出了数据质量不同的自动评估技术,从而可以根据应用的需求判定数据的质量是否达到要求。数据自动修复技术:利用网络提供的海量数据及从其中获得的知识来对数据进行修复。通过分析定义错误修复的语义蕴含与表现形式、自动修复的充分必要条件和基于WEB的自动修复模型,采用查询关键词生成模型,通过遗传算法实现查询关键词的自适应性调整,并使用实体抽取模型,其采用图模型来描述实体集之间的关系,利用图匹配的相关技术进行信息抽取,并基于抽取出的信息进行数据的自动修复。实体识别技术:实体识别用于找出描述现实世界同一实体的数据。如今的数据集合大多具有复杂结构并具有更新频繁特点。本专利技术对此种数据进行实体识别,针对关系数据、XML数据和图数据的进行实体识别。典型地,是应用到商品信息的实体识别中。弱可用信息上的知识发现技术:网络上很多,要么不完整,要么带有可能误导用户的信息的数据以及很多通过自动化方法从非结构化数据中(比如文本和图片)提取出来的数据,都是是典型的弱可用数据。人们可以借助多种数据挖掘方法在这些弱可用数据上进行知识提取,并且将这些提取出来的知识应用到在不同领域的不同场景中。数据质量自动检测技术在社保中的应用:在社保数据中,由于数据源多种多样,信息成因具有阶段性和分布性特点,造成了大量的数据孤岛的存在,即来自不同信息网络的数据信息经常会出现无法共享的问题,比如公安系统、民政局系统可能就会有信息重复或信息不匹配的情况发生。本专利技术利用数据质量自动检测技术解决了这些问题,确保了社保经济数据工程的顺利开展。本专利技术还提出了一种提高数据质量的系统,其包括:用户需求特点模块,其用于获取用户需求特点;维度确定模块,其用于确定用户适用数据质量维度;数据评估模块,其用于根据所述用户适用数据质量维度对现有数据进行评估;处理模块,其用于根据评估结果对所述现有数据进行处理。所述系统还包括判断模块,其用于判断当前数据质量是否满足要求。以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应以所述权利要求的保护范围为准。本文档来自技高网
...
一种提高数据质量的方法及系统

【技术保护点】
一种提高数据质量的方法,其包括:步骤101、获取用户需求特点;步骤103、确定用户适用数据质量维度;步骤105、根据所述用户适用数据质量维度对现有数据进行评估;步骤107、根据评估结果对所述现有数据进行处理。

【技术特征摘要】
1.一种提高数据质量的方法,其包括:步骤101、获取用户需求特点;步骤103、确定用户适用数据质量维度;步骤105、根据所述用户适用数据质量维度对现有数据进行评估;步骤107、根据评估结果对所述现有数据进行处理。2.如权利要求1所述一种提高数据质量的方法,在所述步骤101之前,还包括:通过对发起请求的用户的历史数据进行分析,获取用户需求特点。3.如权利要求1所述一种提高数据质量的方法,所述数据质量维度包括覆盖性、实时性和准确性。4.如权利要求1所述一种提高数据质量的方法,所述步骤103具体包括根据用户的需求特点确定所述用户的适用数据质量维度。5.如权利要求1所述一种提高数据质量的方法,所述步骤105具体包括:用户适用的数据质量维度不同采用不同的评估方法。6.如权利要求3所述一种提高数据质量的方法,其中所述步骤107具体包括:如果所述用户适用数据维度为覆盖性,并且所述数据质量无法满足要求,则使用数据自动修复技术,所述数据自动修复技术利用网络提供的海量数据及从...

【专利技术属性】
技术研发人员:陈敏张磊李首峰陈放
申请(专利权)人:国政通科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1