一种异构数据源的数据预处理方法技术

技术编号:14526660 阅读:144 留言:0更新日期:2017-02-02 06:19
本发明专利技术提供了一种异构数据源的数据预处理方法,包括以下步骤:从多个异构数据源中读取异构数据;基于预处理规则库对所述异构数据进行预处理得到规格化数据;将所述规格化数据存储在数据库中,用于数据集成、数据挖掘和/或企业的在线联机分析处理。其使得政法业务数据可以共享,该方法通用性好,易于扩展,并对数据进行递进式的三次预处理,且处理过程可以回溯,使得处理规则易于修改,提高了数据处理效率及处理精度,且能基于错误的日志修改提取规则,将数据统一存储提供对外服务。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别是一种异构数据源的数据预处理方法
技术介绍
当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,所存放数据的质量都能满足用户的要求。有必要用元数据来表示数据质量。以形式化的方法定义了数据的一致性、正确性、完整性和最小性这四个指标。数据根据在信息系统中这些指标得到满足的程度,进而提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量衡量指标。用户应根据应用的需求选择其中一部分,指标分为两类:数据质量指示器和数据质量参数。前者是客观的信息,比如数据的收集时间,来源等,而后者是主观性的,比如数据来源的可信度、数据的及时性等。数据预处理的目的是检测数据中存在的错误和不一致,剔除或者改正它们,这样就提高了数据的质量。数据预处理过程必须满足如下几个条件:不论是单数据源还是多数据源,都要检测并且除去数据中所有明显的错误和不一致。同时尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其他数据源,应该和数据转化相结合。要有相应的描述语言来指定数据转化和数据预处理操作,所有这些操作应该在一个统一的框架下完成。一些研究人员研究相似重复记录的识别和剔除,还有一些与数据预处理相关的工作。绝大多数相关领域的研究人员认为,要很好地完成数据预处理过程,一定要结合特定应用领域的知识。因此,人们通常将领域知识用规则的形式表示出来。利用专家系统的外壳,以方便规则的表示和利用。在预处理过程中,需要专家的干预,当系统碰到不能处理的情况时,报告异常,要求用户辅助做出决定;同时,系统可以通过机器学习的方法修改知识库,以后碰到类似情况时,它就知道怎样做出相应的处理了。在数据预处理方面人们已经做了很多的研究工作。而尽管业界已经开发了很多数据抽取、转化和装载(ETL)工具来进行数据预处理工作,但是它并没有能跟特定的行业数据结合得很紧密,特别是一些保密级别高的数据长期得不到足够多的研究人员的关注。为此本专利技术的目标就是立足于整合政法系统共享的数据,重点就是对相对保密的政法数据共享平台中的数据质量进行有效控制,而数据质量可以从数据预处理角度来讨论。起初,研究人员提出用元数据来表示数据质量以方便数据质量管理。在研究数据预处理的过程中,很多工作的重点放在如何解决模式冲突上,其实,在数据实例层次上同样有很多数据质量问题发生。数据预处理过程的目的就是要解决这些“脏数据”的问题。目前市场上已经出现许多商业化的数据预处理工具,如IBM公司的DataStage,Oracle公司的OWB(OracleWarehouseBulilder),SQLServer公司的DTS(DataTransformationServices)等等。它们都提供了一些数据预处理功能,但是也存在很大的局限性:(1)缺乏通用性,如DTS只应用于Windows平台,而且只能使用ODBC连接各种数据源;(2)缺乏易用性和可扩展性,虽然OWB针对姓名和地址等方面的预处理具有较好的效果,但是流程过于繁琐,不易使用,而且用户很难编写自己的客户化程序以适应特定领域的数据预处理;(3)预处理功能有限,只能预处理某些类型的“脏数据”。在自动化和信息化并存的时代,信息与数据的自动共享与交换已经轻而易举。政法部门例如法院、检察院、公安、司法等政法部门都已经拥有本部门的信息系统办公平台,各部门的信息资料得到了集中性的管理,并且信息的存储量非常大。在一些部门的工作中需要向其他部门采集相关的信息资料,可现阶段在各部门之间的信息数据交换多为人工方式或者接口定制开发,对交换共享出去的数据无法做到有效监控和管理,这样无疑是加大了工作的成本与时间,也无法实现部门与部门之间信息的迅速查询需求。一个地级市每年有几万宗刑事案件,涉案犯罪嫌疑人员多达近百万万人次,涉案信息(包括人、物、地、组织、机构)多达一千多万条,而且这些信息多数以图形和视频的形式存在,这些分散在公安、检察院、法院、司法部门的信息如果没有信息共享平台的支持,其传递、共享就很难高效实现,上级领导也就很难及时了解整个社会的治安情况,也很难为上级领导决策提供及时可靠的依据。综合上述分析结果可以看出,现有政法系统应用与开发有待统筹规划,信息集成和综合利用的程度较低,在建设和开发的过程中缺乏统一有效的标准化与规范化管理。现有的数据预处理方式仅仅是对数据进行一次预处理,而不能递进地、回溯式地进行数据的预处理,数据处理效率低,精度差,且处理规则难以修改,更不能基于错误的日志修改提取规则及将数据统一存储提供服务。
技术实现思路
本专利技术针对上述现有技术中的缺陷,提出了如下技术方案。一种异构数据源的数据预处理方法,所述方法包括以下步骤:S1:从多个异构数据源中读取异构数据;S2:基于预处理规则库对所述异构数据进行预处理得到规格化数据;以及S3:将所述规格化数据存储在数据库中,用于数据集成、数据挖掘和/或企业的在线联机分析处理;其中,所述预处理规则库包括基础规则库、动态规则库和扩展规则库,步骤S2具体包括以下:S21:构建所述基础规则库,所述基础规则库是用于存储数据预处理基础规则的元数据库,针对政法业务数据,通过对行业专家、部门操作员访谈分析整理出第一级预处理指标,并按照错误数据字典,确定数据预处理基础规则,使用数据预处理基础规则对所述异构数据进行加载和提取得到第一数据集;S22:构建所述动态规则库,从所述第一数据集中选取第一样本数据集,使用深度学习算法对第一样本数据集和所述数据预处理基础规则进行学习,生成动态数据预处理规则,使用所述动态数据预处理规则对所述第一数据集进行加载和提取,得到第二数据集,从第二数据集中选取第二样本数据集;以及S23:构建所述扩展规则库,用于存储具有权限的用户通过人机交互接口定义的数据预处理扩展规则,和使用所示第二样本数据集对所述数据预处理基础规则和动态数据预处理规则进行学习生成的数据预处理扩展规则,使用数据预处理扩展规则对所述第二数据集进行加载和提取,得到规格化数据。更进一步地,所述多个异构数据源包括Oracle、SQLServer、DB2、Sybase、Excel文件、文本文件和Word文件中的至少两者。更进一步地,所述步骤S1从多个异构数据源中读取异构数据的具体操作为:通过通用数据访问接口ODBC和/或JDBC从Oracle、SQLServer、DB2和/或Sybase数据库中读取所述异构数据;通过文本数据读取函数从文本文件读取异构数据;通过Excel文件数据读取函数从Excel文件读取异构数据;通过Word文件数据读取函数从Word文件读取异构数据;以及通过数据库系统提供的API函数读取加密级别高的异构数据。更进一步地,所述加密级别高的异构数据是指需要相应的用户权限才能够读取的数据。更进一步地,所述异构数据是存储在公安、检察院、法院、司法和/监狱信息处理系统中的政法业务数据。更进一步地,利用日志记录数据预处理基础规则、动态数据预处理规则和数据预处理扩展规则的执行情况,根据所述执行情况对数据预处理基础规则、动态数据预处理规则和数据预处理扩展规则进行修改或删除。更进一步地,将所述规格化数据存储在数据库中的具体操作为:通过通用数据访问接口ODBC和/或JDBC将规格化本文档来自技高网
...
一种异构数据源的数据预处理方法

【技术保护点】
一种异构数据源的数据预处理方法,其特征在于,所述方法包括以下步骤:S1:从多个异构数据源中读取异构数据;S2:基于预处理规则库对所述异构数据进行预处理得到规格化数据;以及S3:将所述规格化数据存储在数据库中,用于数据集成、数据挖掘和/或企业的在线联机分析处理;其中,所述预处理规则库包括基础规则库、动态规则库和扩展规则库,步骤S2具体包括以下:S21:构建所述基础规则库,所述基础规则库是用于存储数据预处理基础规则的元数据库,针对政法业务数据,通过对行业专家、部门操作员访谈分析整理出第一级预处理指标,并按照错误数据字典,确定数据预处理基础规则,使用数据预处理基础规则对所述异构数据进行加载和提取得到第一数据集;S22:构建所述动态规则库,从所述第一数据集中选取第一样本数据集,使用深度学习算法对第一样本数据集和所述数据预处理基础规则进行学习,生成动态数据预处理规则,使用所述动态数据预处理规则对所述第一数据集进行加载和提取,得到第二数据集,从第二数据集中选取第二样本数据集;以及S23:构建所述扩展规则库,用于存储具有权限的用户通过人机交互接口定义的数据预处理扩展规则,和使用所述第二样本数据集对所述数据预处理基础规则和动态数据预处理规则进行学习生成的数据预处理扩展规则,使用数据预处理扩展规则对所述第二数据集进行加载和提取,得到规格化数据。...

【技术特征摘要】
1.一种异构数据源的数据预处理方法,其特征在于,所述方法包括以下步骤:S1:从多个异构数据源中读取异构数据;S2:基于预处理规则库对所述异构数据进行预处理得到规格化数据;以及S3:将所述规格化数据存储在数据库中,用于数据集成、数据挖掘和/或企业的在线联机分析处理;其中,所述预处理规则库包括基础规则库、动态规则库和扩展规则库,步骤S2具体包括以下:S21:构建所述基础规则库,所述基础规则库是用于存储数据预处理基础规则的元数据库,针对政法业务数据,通过对行业专家、部门操作员访谈分析整理出第一级预处理指标,并按照错误数据字典,确定数据预处理基础规则,使用数据预处理基础规则对所述异构数据进行加载和提取得到第一数据集;S22:构建所述动态规则库,从所述第一数据集中选取第一样本数据集,使用深度学习算法对第一样本数据集和所述数据预处理基础规则进行学习,生成动态数据预处理规则,使用所述动态数据预处理规则对所述第一数据集进行加载和提取,得到第二数据集,从第二数据集中选取第二样本数据集;以及S23:构建所述扩展规则库,用于存储具有权限的用户通过人机交互接口定义的数据预处理扩展规则,和使用所述第二样本数据集对所述数据预处理基础规则和动态数据预处理规则进行学习生成的数据预处理扩展规则,使用数据预处理扩展规则对所述第二数据集进行加载和提取,得到规格化数据。2.根据权利要求1所述的方法,其特征在于,所述多个异构数据源包括Oracle、SQLServer、DB2、Sybase、Excel文件、文本文件和Word文件中的至少两者。3.根据权利要求1所述的方法,其特征在于,所述步骤S1从多个异构数据源中读取异构数据的具体操作为:通过通用数据访问接口ODBC和/或JDBC从Oracle、SQLServer、DB2和/或Sybase数据库中读取所述异构数据;通过文本数据读取函数从文本文件读取异构数据;通过Excel文件数据读取函数从Excel文件读取异构数据;通过Word文件数据读取函数从W...

【专利技术属性】
技术研发人员:李志敏梁柏超贺文锋
申请(专利权)人:广东京奥信息科技有限公司中共佛山市委政法委员会
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1