一种异构数据源的数据预处理方法技术

技术编号：14526660 阅读：144 留言：0更新日期：2017-02-02 06:19

本发明专利技术提供了一种异构数据源的数据预处理方法，包括以下步骤：从多个异构数据源中读取异构数据；基于预处理规则库对所述异构数据进行预处理得到规格化数据；将所述规格化数据存储在数据库中，用于数据集成、数据挖掘和/或企业的在线联机分析处理。其使得政法业务数据可以共享，该方法通用性好，易于扩展，并对数据进行递进式的三次预处理，且处理过程可以回溯，使得处理规则易于修改，提高了数据处理效率及处理精度，且能基于错误的日志修改提取规则，将数据统一存储提供对外服务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理
，特别是一种异构数据源的数据预处理方法。
技术介绍
当建立一个信息系统的时候，即使进行了良好的设计和规划，也不能保证在所有情况下，所存放数据的质量都能满足用户的要求。有必要用元数据来表示数据质量。以形式化的方法定义了数据的一致性、正确性、完整性和最小性这四个指标。数据根据在信息系统中这些指标得到满足的程度，进而提出了数据工程中数据质量的需求分析和模型，认为存在很多候选的数据质量衡量指标。用户应根据应用的需求选择其中一部分，指标分为两类：数据质量指示器和数据质量参数。前者是客观的信息，比如数据的收集时间，来源等，而后者是主观性的，比如数据来源的可信度、数据的及时性等。数据预处理的目的是检测数据中存在的错误和不一致，剔除或者改正它们，这样就提高了数据的质量。数据预处理过程必须满足如下几个条件：不论是单数据源还是多数据源，都要检测并且除去数据中所有明显的错误和不一致。同时尽可能地减小人工干预和用户的编程工作量，而且要容易扩展到其他数据源，应该和数据转化相结合。要有相应的描述语言来指定数据转化和数据预处理操作，所有这些操作应该在一个统一的框架下完成。一些研究人员研究相似重复记录的识别和剔除，还有一些与数据预处理相关的工作。绝大多数相关领域的研究人员认为，要很好地完成数据预处理过程，一定要结合特定应用领域的知识。因此，人们通常将领域知识用规则的形式表示出来。利用专家系统的外壳，以方便规则的表示和利用。在预处理过程中，需要专家的干预，当系统碰到不能处理的情况时，报告异常，要求用户辅助做出决定；同时，系统可以通过机器学习的方法修改知识库，...
一种异构数据源的数据预处理方法

【技术保护点】
一种异构数据源的数据预处理方法，其特征在于，所述方法包括以下步骤：S1：从多个异构数据源中读取异构数据；S2：基于预处理规则库对所述异构数据进行预处理得到规格化数据；以及S3：将所述规格化数据存储在数据库中，用于数据集成、数据挖掘和/或企业的在线联机分析处理；其中，所述预处理规则库包括基础规则库、动态规则库和扩展规则库，步骤S2具体包括以下：S21：构建所述基础规则库，所述基础规则库是用于存储数据预处理基础规则的元数据库，针对政法业务数据，通过对行业专家、部门操作员访谈分析整理出第一级预处理指标，并按照错误数据字典，确定数据预处理基础规则，使用数据预处理基础规则对所述异构数据进行加载和提取得到第一数据集；S22：构建所述动态规则库，从所述第一数据集中选取第一样本数据集，使用深度学习算法对第一样本数据集和所述数据预处理基础规则进行学习，生成动态数据预处理规则，使用所述动态数据预处理规则对所述第一数据集进行加载和提取，得到第二数据集，从第二数据集中选取第二样本数据集；以及S23：构建所述扩展规则库，用于存储具有权限的用户通过人机交互接口定义的数据预处理扩展规则，和使用所述第二样本数据集对所...

【技术特征摘要】
1.一种异构数据源的数据预处理方法，其特征在于，所述方法包括以下步骤：S1：从多个异构数据源中读取异构数据；S2：基于预处理规则库对所述异构数据进行预处理得到规格化数据；以及S3：将所述规格化数据存储在数据库中，用于数据集成、数据挖掘和/或企业的在线联机分析处理；其中，所述预处理规则库包括基础规则库、动态规则库和扩展规则库，步骤S2具体包括以下：S21：构建所述基础规则库，所述基础规则库是用于存储数据预处理基础规则的元数据库，针对政法业务数据，通过对行业专家、部门操作员访谈分析整理出第一级预处理指标，并按照错误数据字典，确定数据预处理基础规则，使用数据预处理基础规则对所述异构数据进行加载和提取得到第一数据集；S22：构建所述动态规则库，从所述第一数据集中选取第一样本数据集，使用深度学习算法对第一样本数据集和所述数据预处理基础规则进行学习，生成动态数据预处理规则，使用所述动态数据预处理规则对所述第一数据集进行加载和提取，得到第二数据集，从第二数据集中选取第二样本数据集；以及S23：构建所述扩展规则库，用于存储具有权限的用户通过人机交互接口定义的数据预处理扩展规则，和使用所述第二样本数据集对所述数据预处理基础规则和动态数据预处理规则进行学习生成的数据预处理扩展规则，使用数据预处理扩展规则对所述第二数据集进行加载和提取，得到规格化数据。2.根据权利要求1所述的方法，其特征在于，所述多个异构数据源包括Oracle、SQLServer、DB2、Sybase、Excel文件、文本文件和Word文件中的至少两者。3.根据权利要求1所述的方法，其特征在于，所述步骤S1从多个异构数据源中读取异构数据的具体操作为：通过通用数据访问接口ODBC和/或JDBC从Oracle、SQLServer、DB2和/或Sybase数据库中读取所述异构数据；通过文本数据读取函数从文本文件读取异构数据；通过Excel文件数据读取函数从Excel文件读取异构数据；通过Word文件数据读取函数从W...

【专利技术属性】
技术研发人员：李志敏，梁柏超，贺文锋，
申请(专利权)人：广东京奥信息科技有限公司，中共佛山市委政法委员会，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人