一种基于大数据平台的多源数据融合共享实现方法及系统技术方案

技术编号:21034280 阅读:21 留言:0更新日期:2019-05-04 05:25
本发明专利技术提供一种基于大数据平台的多源数据融合共享实现方法及系统,所述方法包括配置至少一个数据源信息和定时规则,并按照所配置的定时规则执行数据接入作业,数据接入作业为从所获取的至少一个数据源中抽取数据、或互联网数据采集、或转换数据、或装载数据至大数据平台;对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业;对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库;通过在所构建的大数据平台中设置统一的数据交换接口进行数据共享。本发明专利技术能够面对不同场景和多源数据只需通过灵活的配置无需再次进行开发,极大提高项目上线部署效率,极大简化上层应用对大数据平台上数据的检索。

【技术实现步骤摘要】
一种基于大数据平台的多源数据融合共享实现方法及系统
本专利技术涉及大数据
,尤其涉及一种基于大数据平台的多源数据融合共享实现方法及系统。
技术介绍
近年来,随着互联网、社交网络、云计算、搜索引擎等IT与通信技术的迅速发展,数以亿级的用户每天都在产生大量的数据。大规模数据的涌现给许多行业带来了宝贵的机遇,但同时这些数据所伴随的典型特性,如大规模、多来源(多源)、类型和模式多样(异构)、高维度以及质量良莠不齐等,使得数据的表示、理解、计算和运用等多个环节都面临着极大的挑战。数据的质量是制约数据使用的“瓶颈”,作为提高数据质量的重要解决技术,数据清洗和数据融合是多源异构数据处理中的热点研究领域,具有重要的价值与意义。但是传统数据清洗方法借助硬编码方法实现业务逻辑,导致系统的可重用性、可扩展性与灵活性较差。另外,现实中的许多应用经常需要集成来自不同途径的异构数据,如何确保这些数据的一致性正逐渐成为一个必须要解决的问题,即实体识别技术。目前在用交通业务系统31个,交通信号控制路口194个、治安测速卡口66个断面、闯红灯抓拍系统192个路口、交通诱导系统86套、流量监测系统369套、道路视频652个、高空高清视频32套、车载3G视频45套、事件监测系统248套、移动执法终端273台等交通管理领域的“大数据”从数据来源上主要包括行政采集的机动车、驾驶人、道路等档案数据,路面执法人员采集的车辆和驾驶员信息、查处的交通违法信息、处理的交通事故、道路、交通数据信息等数据,道路电子监控设备自动采集的视频、图片、车流量、GPS轨迹等数据,社会公众服务所产生的各类交通管理相关的碎片化数据,以及同人口、保险、税务、规划等相关部门的信息交换数据。这些数据从类型上,包括图片的、视频的、二维表的、结构化、半结构化、非结构化的数据;从渠道上包括传统业务窗口、互联网、移动互联网等数据应用场景。因此,需要一种根据实际业务需求、数据积累,利用先进的大数据技术,构建高效稳定高性能的大数据基础平台,汇集多源异构数据,应用统一的大数据存储处理架构提供相应的数据接入、数据融合、数据存储、数据计算、数据共享等,为各类大数据应用的提供有力的支撑和保障。在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。现有解决方案通常伴随高昂的时间开销,其运行时间会随着数据集中属性维度的增加而呈指数增长;在大数据环境下,由于数据的结构差异大、数据来源广、价值密度较低、更新实时等特点,给多源数据融合技术带来了巨大挑战,而多源异构数据的融合为研究者在大数据环境下进行知识获取、知识组织和利用提供了非常有效的手段和方法。但是,目前的知识融合方法从理论到实践还有很多不足。
技术实现思路
本专利技术提供的基于大数据平台的多源数据融合共享实现方法及系统,能够面对不同场景和多源数据,只需通过灵活的配置无需再次进行开发,极大提高了项目上线部署效率,极大简化了上层应用对大数据平台上数据的检索。第一方面,本专利技术提供一种基于大数据平台的多源数据融合共享实现方法,包括:配置至少一个数据源信息和定时规则,并按照所配置的定时规则执行数据接入作业,其中,所述数据接入作业为从所获取的至少一个数据源中抽取数据、或互联网数据采集、或转换数据、或装载数据至大数据平台;对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业;对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库;通过在所构建的大数据平台中设置统一的数据交换接口进行数据共享。可选地,所述对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业包括:当所接入的数据为记录级别数据时,则对所述记录级别数据的融合作业包括将记录各条件的数据进行信息校验;当所接入的数据为字段级别数据时,则对所述记录级别数据的融合作业包括字段校验、或字段转换。可选地,所述数据融合作业通过ETL方法对待融合数据进行处理;其中,在所述ETL方法中将ETL实现类采用装饰模式,并配置对应的配置文件用以依次实现过滤进程、转化进程和过滤进程。可选地,所述对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库包括:输入数据目录、数据字段数、数据rowkey字段、专题库名称参数中一种或者任意组合;根据Hbase连接方式与专题库名称,实例化连接;读取所述数据对应类型最新一次加载日期或者时间记录,计算上次加载时间间隔;判断所述时间间隔是否大于所述定时规则中所配置的时间周期;当所述时间间隔大于所述定时规则中所配置的时间周期时,则日志记录前一个或多个加载失败周期,然后检查日志并执行重新加载作业;或者,当所述时间间隔不大于所述定时规则中所配置的时间周期时,则根据传入的分隔符,逐条拆分记录;拆分后的数组长度同传入的字段总数比较,保留两者相同的数据;根据传入字段下标,将字段整合成主键;数据put到hbase;执行结束后,记录该次时间周期执行加载成功。可选地,在对融合分析后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库之后,所述方法还包括:设置可配置脚本,并实现库和表的自动化创建以及数据加载。可选地,所述通过在大数据平台中建立标准统一数据交换接口进行数据共享包括:当所进行的数据共享为数据查询共享时,通过JavaAPI或者Rest向上层应用提供请求响应模式的共享进程;当所进行的数据共享为数据检索时,在系统管理中访问控制内设置检索权限进行约束,其中,所述检索可返回任意请求的检索数据;当所进行的数据共享为数据访问时,数据访问日志通过对外共享接口进行记录。第二方面,本专利技术提供一种基于大数据平台的多源数据融合共享实现系统,包括:配置模块,用于配置至少一个数据源信息和定时规则;数据接入模块,用于按照所配置的定时规则执行数据接入作业,其中,所述数据接入作业为从所获取的至少一个数据源中抽取数据、或互联网数据采集、或转换数据、或装载数据至大数据平台;数据融合模块,用于对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业;存储模块,用于对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库;数据共享模块,用于通过在所构建的大数据平台中设置统一的数据交换接口进行数据共享。可选地,所述数据融合模块包括:第一融合子模块,用于当所接入的数据为记录级别数据时,则对所述记录级别数据的融合作业包括将记录各条件的数据进行信息校验;第二融合子模块,用于当所接入的数据为字段级别数据时,则对所述记录级别数据的融合作业包括字段校验、或字段转换。可选地,所述存储模块包括:参数输入子模块,用于输入数据目录、数据字段数、数据rowkey字段、专题库名称参数中一种或者任意组合;实例化连接子模块,用于根据Hbase连接方式与专题库名称,实例化连接;计算子模块,用于读取所述数据对应类型最新一次加载日期或者时间记录,计算上次加载时间间隔;判断子模块,用于判断所述时间间隔是否大于所述定时规则中所配置的时间周期;第一作本文档来自技高网
...

【技术保护点】
1.一种基于大数据平台的多源数据融合共享实现方法,其特征在于,包括:配置至少一个数据源信息和定时规则,并按照所配置的定时规则执行数据接入作业,其中,所述数据接入作业为从所获取的至少一个数据源中抽取数据、或互联网数据采集、或转换数据、或装载数据至大数据平台;对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业;对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库;通过在所构建的大数据平台中设置统一的数据交换接口进行数据共享。

【技术特征摘要】
1.一种基于大数据平台的多源数据融合共享实现方法,其特征在于,包括:配置至少一个数据源信息和定时规则,并按照所配置的定时规则执行数据接入作业,其中,所述数据接入作业为从所获取的至少一个数据源中抽取数据、或互联网数据采集、或转换数据、或装载数据至大数据平台;对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业;对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库;通过在所构建的大数据平台中设置统一的数据交换接口进行数据共享。2.根据权利要求1所述的方法,其特征在于,所述对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业包括:当所接入的数据为记录级别数据时,则对所述记录级别数据的融合作业包括将记录各条件的数据进行信息校验;当所接入的数据为字段级别数据时,则对所述记录级别数据的融合作业包括字段校验、或字段转换。3.根据权利要求2所述的方法,其特征在于,所述数据融合作业通过ETL方法对待融合数据进行处理;其中,在所述ETL方法中将ETL实现类采用装饰模式,并配置对应的配置文件用以依次实现过滤进程、转化进程和过滤进程。4.根据权利要求1-3任一所述的方法,其特征在于,所述对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库包括:输入数据目录、数据字段数、数据rowkey字段、专题库名称参数中一种或者任意组合;根据Hbase连接方式与专题库名称,实例化连接;读取所述数据对应类型最新一次加载日期或者时间记录,计算上次加载时间间隔;判断所述时间间隔是否大于所述定时规则中所配置的时间周期;当所述时间间隔大于所述定时规则中所配置的时间周期时,则日志记录前一个或多个加载失败周期,然后检查日志并执行重新加载作业;或者,当所述时间间隔不大于所述定时规则中所配置的时间周期时,则根据传入的分隔符,逐条拆分记录;拆分后的数组长度同传入的字段总数比较,保留两者相同的数据;根据传入字段下标,将字段整合成主键;数据put到hbase;执行结束后,记录该次时间周期执行加载成功。5.根据权利要求1-4任一所述的方法,其特征在于,在对融合分析后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库之后,所述方法还包括:设置可配置脚本,并实现库和表的自动化创建以及数据加载。6.根据权利要求1-5任一所述的方法,其特征在于,所述通过在大数据平台中建立标准统一数据交换接口进行数据共享包括:当所进行的数据共享为数据查询共享时,通过JavaAPI或者Rest向上层应用提供请求响应模式的...

【专利技术属性】
技术研发人员:张帅谢莹莹郭庆宋怀明蒋丹东
申请(专利权)人:中科曙光国际信息产业有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1