本发明专利技术涉及一种数据智能识别系统,包括调度器、数据适配、数据来源识别与分类、数据项识别、数据内容识别、数据标签与元数据生成等模块,主要用于自动、智能的识别入库数据,数据在进入大数据平台之前,首先通过该系统对相关内容进行识别,最终让用户能够认识数据,支持源端系统主动推送和平台自行抽取等多种数据接入模式,以调度器和缓冲区来满足各种复杂情况下数据识别的可靠性、完整性。完整性。完整性。
【技术实现步骤摘要】
一种数据智能识别系统
[0001]本专利技术属于大数据
,涉及一种对多源、异构数据和文件的智能识别系统。
技术介绍
[0002]在全球信息化快速发展的大背景下,大数据已成为重要的基础性战略资源。各行各业开展大数据智能化建设,强化数据整合、深化数据应用,最大限度融合资源,提高效率,带动行业信息化发展模式全面升级,形成开放、共享、关联、融合的大数据发展格局。
[0003]行业大数据资源规划设计和体系建设,需要明确数据接入、处理、治理、组织和服务等具体功能的实现方式。逐步建立数据资源归集汇聚、融合治理、共享服务的规范流程和长效机制。其中,数据接入主要负责从各种数据源获取各种形态的相关数据,并汇聚到大数据资源平台的原始数据库。在数据接入过程中,需要对各数据源接入的各种结构化和非结构化数据的语义进行智能识别,并将识别的结果存入元数据库。
技术实现思路
[0004]本专利技术的目的在于提供一种数据智能识别系统,实现对业务系统推送的数据以及平台所发起的到业务系统去抽取的多源、异构数据和文件进行智能识别,并生成元数据,存入元数据仓库,以实现对进入原始库的全部数据和文件进行定义及描述。
[0005]本专利技术的技术方案如下:
[0006]一种数据智能识别系统,其特征在于,主要包括以下模块:
[0007](1)调度器:所述调度器是针对平台资源的使用情况、导入数据的大小以及时效性要求情况,对待入库数据进行智能调度的装置;数据经过调度器有三种处理方式,一是数据进入智能识别系统进行识别,二是数据存入缓冲区,之后从缓冲区进入智能识别系统进行识别,三是系统拒绝相关数据的识别,直接终止任务;
[0008](2)数据适配:在开放的体系架构下,通过协议解析、接口转换实现面向不同数据存储管理系统的适配和对接,同时以模块化可配置可插拔的方式实现不同存储管理系统之间的ETL工具集,从而实现面向海量混合异构数据源的统一适配能力;
[0009](3)数据来源识别与分类:通过与源端系统的对接,获取接入库表或文件所对应的数据来源信息,从而对数据来源进行识别和分类统计;
[0010](4)数据项识别:通过多种算法提取并描述库表或文件的每一个数据项,同时进行信息比对和关联关系判断,通过机器学习等算法,优化迭代识别能力,最终对数据项进行精准识别;
[0011](5)数据内容识别:通过对数据项的组合以及对关联关系的分析判断,从而实现对数据内容的识别;
[0012](6)数据标签与元数据生成:通过对数据源的识别和分类统计,以及对数据项和数据内容的识别,形成数据自身的标签和元数据信息;通过标签和元数据信息,精确的识别出数据本身,以及数据存入原始库或其他库的位置信息,用户通过访问元数据信息就能够获
取到该数据。
[0013]本专利技术具有以下有益效果:
[0014]1、广泛利用新一代网络信息技术,大大降低数据认知方面的人工投入,显著提高数据自动化识别能力。
[0015]2、入库数据智能识别,采用调度器和智能缓存区,支持多种模式的数据识别接入,保证数据识别的可靠性、实效性及完整性,通过多源异构数据适配实现对各种异构数据源进行对接,通过数据源识别、数据项识别、数据内容识别来定义数据标签并生成入库数据的元数据。通过人工智能、机器学习等算法,实现数据识别精准度的不断提升并逐步取代人工识别。
[0016]3、能够支持对跨域、多源、异构的数据源进行对接,能够依据后端识别、计算、存储等资源的利用情况,进行智能判断和自动调度,让入库数据识别工作不会对源端系统产生影响,要能够高效支持数据的更新处理和增量识别,优化网络及存储利用率,入库数据识别后所生成的元数据与进入原始库的数据本体应同步写入,保证两者之间元数据信息的一致性。
[0017]4、从“入库规则”到优先权规则的智能化转化;针对入库数据建立数学模型,设计带匹配的权值算法,实现优化入库;“关系时间一致性约束”让数据源引用的时间点成为模型中时间信息的唯一来源,能够避免关系的时间点与其上数据源引用的时间点不一致所带来的不必要、无意义的模型复杂性。
附图说明
[0018]图1是本专利技术的系统结构图;
[0019]图2是本专利技术的功能架构图。
具体实施方式
[0020]本专利技术的系统结构如图1所示,主要用于自动、智能的识别入库数据,数据在进入大数据平台之前,首先通过该系统对相关内容进行识别,最终让用户能够认识数据,支持源端系统主动推送和平台自行抽取等多种数据接入模式,以调度器和缓冲区来满足各种复杂情况下数据识别的可靠性、完整性。支持数据更新和数据增量,通过数据源识别、数据项识别、数据内容识别,最终生成数据标签和元数据信息,并存储入库。同时数据的智能识别,还兼顾了源端系统迁移等情况,当源端系统将自身库表直接接入大数据平台,智能识别模块仍然能够对相关信息进行读取,并保存元数据信息。
[0021]本专利技术的功能模块如图2所示,主要包括调度器、数据适配、数据来源识别与分类、数据项识别、数据内容识别、数据标签与元数据生成等。
[0022]调度器:调度器是针对平台资源的使用情况、导入数据的大小以及时效性要求等情况,对待入库数据进行智能调度的装置。数据经过调度器会有三种处理方式,一是数据进入智能识别系统进行识别,二是数据存入缓冲区,之后从缓冲区进入智能识别系统进行识别,三是系统拒绝相关数据的识别,直接终止任务。
[0023]数据适配:在开放的体系架构下,通过协议解析、接口转换等方式实现面向不同数据存储管理系统的适配和对接,同时以模块化可配置可插拔的方式实现不同存储管理系统
之间的ETL工具集,从而实现面向海量混合异构数据源的统一适配能力。
[0024]数据来源识别与分类:通过与源端系统的对接,获取接入库表或文件所对应的数据来源信息,从而对数据来源进行识别和分类统计。
[0025]数据项识别:数据或文件在进入数据智能识别系统后,会通过多种算法提取并描述库表或文件的每一个数据项,同时进行信息比对和关联关系判断,通过机器学习等算法,优化迭代识别能力,最终对数据项进行精准识别。
[0026]数据内容识别:通过对数据项的组合以及对关联关系的分析判断,从而实现对数据内容的识别。
[0027]数据标签与元数据生成:通过对数据源的识别和分类统计,以及对数据项和数据内容的识别,形成数据自身的标签和元数据信息。通过标签和元数据信息,可以精确的识别出数据本身,以及数据存入原始库或其他库的位置信息,用户通过访问元数据信息就能够获取到该数据。
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据智能识别系统,其特征在于,主要包括以下模块:(1)调度器:所述调度器是针对平台资源的使用情况、导入数据的大小以及时效性要求情况,对待入库数据进行智能调度的装置;数据经过调度器有三种处理方式,一是数据进入智能识别系统进行识别,二是数据存入缓冲区,之后从缓冲区进入智能识别系统进行识别,三是系统拒绝相关数据的识别,直接终止任务;(2)数据适配:在开放的体系架构下,通过协议解析、接口转换实现面向不同数据存储管理系统的适配和对接,同时以模块化可配置可插拔的方式实现不同存储管理系统之间的ETL工具集,从而实现面向海量混合异构数据源的统一适配能力;(3)数据来源识别与分类:通过与源端系统...
【专利技术属性】
技术研发人员:张陈欢,
申请(专利权)人:北京航天长峰科技工业集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。