基于插件处理的数据装配方法组成比例

技术编号:10976469 阅读:69 留言:0更新日期:2015-01-30 11:49
本发明专利技术公开了一种基于插件处理的数据装配方法,属于数据处理领域。本发明专利技术方法通过对数据文件进行业务定义、规则配置、统一清洗,基于“插件化”和“渠道表动态自定义”的手段,对数据进行360°全方位稽核。本发明专利技术可随时不断增加新业务渠道,在不必变更数据和程序的情况下,方便且灵活的扩大样本范围,推动数据的准确性,且可以在不重复开发的情况,依靠配置文件和动态表创建,即可完成对数据文件进行处理,不需要数据库的后期加工,即可不断推进数据的准确性,实现全方位的综合服务。

【技术实现步骤摘要】
基于插件处理的数据装配方法
本专利技术涉及一种数据装配方法,尤其是一种对数据之间的有用交叉信息部分进行处理,利用插件灵活性和动态组表定义方式,进行多个方向和多维度的数据装配方法,属于数据处理领域。
技术介绍
目前在各类应用系统中,对数据的加工方式可分为以下三个表现方式:一是以传统数据库或数据仓库为工作区,运用商务智能BI方式对库内数据进行再加工、分析、报表统计等;二是运用大数据处理方式,依靠HADOOP平台工具集,进行数据分析处理;三是在分布事务中间件的基础上,联结多个数据库,从业务层次上利用程序或服务进行整合、展示,并且常以存储过程为手段。以日常使用的市民卡为例,在当前互联网时代背影下,系统更强调围绕着数据进行,随着市民卡承载的业务种类越来越多,信息交叉和变动过程日益频繁,使得准确定位和研判业务历史轨迹变得很有价值,但实际却很困难,实际应用中要求能快速对每条数据进行逐条梳理,形成唯一的市民信息人口库,而当前商务智能软件更侧重于对杂乱数据存储后的再提取、统计过程,与这一需求场景冲突,所以要求加强数据导入的前期程序处理能力。现有的新兴大数据处理HADOOP强调的是数据集群存储和统计分析能力,对具备业务关联和共性的数据,无法在前期快速提供关联性数据的深度清洗策略。从更广泛的数据加工常规方法来观察,当前市场上数据处理的核心思想是原始数据集中存储后的再加工,针对于如市民信息人口库此类的前期数据整理,以往只能在数据文件阶段进行简单的格式清洗,或通过专门程序进行目标文件内的数据比对、加工、合并,缺乏一种能够在各种数据文件入库前,灵活接受不同格式新老文件,同时完成文件和库内的数据关联处理。在实际应用中,这种在数据库之前的前置加工办法无法与库内存量数据的进行深度联动。
技术实现思路
本专利技术所要解决的技术问题在于克服现有技术的缺陷,提供一种能在存储前对不同来源的原始数据对象实施数据间的横向、数据内的纵向、数据外的外部交叉策略,对数据进行充分的关联加工后入库存储,实现数据最大程度的多维检查、合并操作的基于插件处理的数据装配方法。本专利技术的基本构思为:基于插件处理的数据装配办法,面向的是不同来源的相关业务原始数据对象,设计渠道多步骤加工和阶段稽核的统一过程,抛弃以往传统数据无序加工的方式(依靠程序或存储过程专项进行),通过定义和梳理出业务数据间横向维、业务数据内纵向维、跨多业务数据联动其它斜向维的数据特征,从多个角度观察,依靠业务人员定义策略和加工规则,形成对数据的360°全方位稽核,从而建立一种360°稽核的思想,简单来说,这种思想主要是利用不同维度观察数据内涵,落实到对应不同类型插件上承载不同类型的稽核操作。具体做法为,对单一业务数据文件对象与标准待装配数据的关系进行深入递进分析,即与当前其他业务同质数据的横向关系,与同类文件历史数据的纵向关系,与其他业务间接的引申关系(通过多个交叉数据提取结果),对数据加工关系进行充分定义,在此基础上运用“插件化”的技术进行流水加工,汇总、更新相关数据,通过“渠道表动态自定义”的手段,即每个业务渠道套表不需事前规划限定,当前渠道表名称和字段的名称、类型、大小、个数等定义,只在业务接口开通前按需通过页面动态建立,最终外部数据将持久化存储在对应的业务渠道各表中,解决了不同来源业务数据入库前的前置清洗(过程统一和策略自定义)和业务数据独立通道化加工存储之问题,可持续叠加出一份数据标准集。为了解决上述技术问题,本专利技术提供的基于插件处理的数据装配方法,包括以下步骤:1)、搭建功能插件,所述功能插件包括数据装载器、业务过滤器插件、横向规则比较器和纵向规则对比器,所述数据装载器,用于完成配置文件所指定的数据字段读取工作,并根据业务定义进行文件检查;所述业务过滤器,用于按通用或专用规则对业务进行特征鉴别,并依业务特征进行过滤;所述横向规则比较器,用于对同质字段的当前不同业务渠道数据比较;所述纵向规则对比器,用于对同业务渠道数据与历史数据对比;2)、建立各业务渠道;3)、导入数据进行清洗处理后存储:31)、初始化工作线程与功能插件,读取业务渠道中的配置文件和规则表,获得功能插件及规则集合;32)、启动数据提取线程获取原始数据文件,所述原始数据文件包括业务文件和交易数据文件;33)、启动数据分拣线程加载数据装载器,获取文件并验证后根据文件的业务定义导入内存;34)、启动业务归整线程加载业务过滤器,根据业务特征分别对数据进行格式过滤;35)、启动稽核线程进入对数据进行稽核;36)、启动入库线程将稽核后的数据持久化存储。本专利技术中,所述功能插件还包括引申规则定义器,所述引申规则定义器用于对多个相关数据进行复杂推导加工。本专利技术中,所述步骤2)中各业务渠道的建立过程为:21)、获得业务文件的格式样本,分析文件类型、各业务字段内含和特征;22)、增加新的渠道,定义对应的渠道业务表、工作表字段名、类型,调用脚本创建各表;23)、定义需要的稽核器及其所运行的业务规则集合,描述各业务子规则工作对象字段和策略方法;24)、配置渠道控制参数和数据装配的参数文件;25)、启用渠道,开放接口,导入业务数据文件。本专利技术中,所述步骤35)的数据稽核具体过程为:所述步骤35)的具体过程为:351)、稽核第一阶段:加载横向规则比较器插件,依次取出规则对象,稽核与其他业务的同质字段一致性,进行算术或逻辑运算;352)、稽核第二阶段:完成步骤351)后,加载纵向规则对比器插件,检查各原始表的数据和同一业务渠道历史表的数据,确定所述数据的有效状态,并进行相互关系判断。本专利技术中,所述步骤35)的数据稽核具体过程还包括:353)、稽核第三阶段:完成步骤352)后,根据定义,选择加载引申规则定义器插件,检查指定关联业务表、关联字段、转化规则关系,执行高阶加工的指定逻辑动作。本专利技术的有益效果在于:(1)、本专利技术数据清洗过程使用插件化,采用灵活的规则和业务关系自定义方式,使每个业务数据文件在本通道内得到全面的入库前稽核,多个业务并行,最终形成单一指定业务目标的唯一准确基础表,也可以根据数据追踪用户不同业务历史变更轨迹,其不需要对数据进行复杂的后期加工和整理,不断推进数据的准确性,扩展了数据的渠道信息量;(2)、本专利技术中各线程和功能插件间配合运行,系统中插件的实际存在方式是动态库组件,由不同的工作线程启动后调用,工作线程只独立运行于一个渠道系统之中,串行处理,以防止数据交叉和不一致,但不同渠道系统之间并行运行,线程无关,不发生直接约束,提升了数据的准确率和可信度;(3)、本专利技术方法有利于随时不断增加新业务渠道,在不必变更数据和程序的情况下,方便且灵活的扩大样本范围,推动数据结果的准确性。附图说明图1为本专利技术基于插件处理的数据装配方法的流程图;图2为本专利技术中数据装载器插件的工作流程图;图3为本专利技术中业务过滤器插件的工作流程图;图4为本专利技术中横向规则比较器插件的工作流程图;图5是本专利技术中纵向规则对比器插件的工作流程图;图6是本专利技术中引申规则定义器插件的工作流程图。具体实施方式下面以市民卡业务为例结合附图对本专利技术作进一步详细说明。为了实施本专利技术的数据装配方法,需要进行“插件化”和渠道参数设置(包含“渠道表动态自定义”创建过程)两项准备过程,最终通过程序自动本文档来自技高网
...
基于插件处理的数据装配方法

【技术保护点】
一种基于插件处理的数据装配方法,其特征在于包括以下步骤:1)、搭建功能插件,所述功能插件包括数据装载器、业务过滤器插件、横向规则比较器和纵向规则对比器,所述数据装载器,用于完成配置文件所指定的数据字段读取工作,并根据业务定义进行文件检查;所述业务过滤器,用于按通用或专用规则对业务进行特征鉴别,并依业务特征进行过滤;所述横向规则比较器,用于对同质字段的当前不同业务渠道数据比较;所述纵向规则对比器,用于对同业务渠道数据与历史数据对比;2)、建立各业务渠道;3)、导入数据进行清洗处理后存储:31)、初始化工作线程与功能插件,读取业务渠道中的配置文件和规则表,获得功能插件及规则集合;32)、启动数据提取线程获取原始数据文件,所述原始数据文件包括业务文件和交易数据文件;33)、启动数据分拣线程加载数据装载器,获取文件并验证后根据文件的业务定义导入内存;34)、启动业务归整线程加载业务过滤器,根据业务特征分别对数据进行格式过滤;35)、启动稽核线程进入对数据进行稽核; 36)、启动入库线程将稽核后的数据持久化存储。

【技术特征摘要】
1.一种基于插件处理的数据装配方法,其特征在于包括以下步骤:1)、搭建功能插件,所述功能插件包括数据装载器、业务过滤器插件、横向规则比较器和纵向规则对比器,所述数据装载器,用于完成配置文件所指定的数据字段读取工作,并根据业务定义进行文件检查;所述业务过滤器,用于按通用或专用规则对业务进行特征鉴别,并依业务特征进行过滤;所述横向规则比较器,用于对同质字段的当前不同业务渠道数据比较;所述纵向规则对比器,用于对同业务渠道数据与历史数据对比;2)、建立各业务渠道;21)、获得业务文件的格式样本,分析文件类型、各业务字段内含和特征;22)、增加新的渠道,定义对应的渠道业务表、工作表字段名、类型,调用脚本创建各表;23)、定义需要的稽核器及其所运行的业务规则集合,描述各业务子规则工作对象字段和策略方法;24)、配置渠道控制参数和数据装配的参数文件;25)、启用渠道,开放接口,导入业务数据文件;3)、导入数据进行清洗处理后存储:31)、初始化工作线程与功能插件,读取业务渠道中的配置文件和规则表,获得功能插件及规则集合;32)、启动数据提取线程获取原始数据文件,所述原始数据文...

【专利技术属性】
技术研发人员:葛海欧张旺杨智敏路晋平孙力斌
申请(专利权)人:南京联创科技集团股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1