【技术实现步骤摘要】
一种基于大数据平台的多源数据融合共享实现方法及系统
本专利技术涉及大数据
,尤其涉及一种基于大数据平台的多源数据融合共享实现方法及系统。
技术介绍
近年来,随着互联网、社交网络、云计算、搜索引擎等IT与通信技术的迅速发展,数以亿级的用户每天都在产生大量的数据。大规模数据的涌现给许多行业带来了宝贵的机遇,但同时这些数据所伴随的典型特性,如大规模、多来源(多源)、类型和模式多样(异构)、高维度以及质量良莠不齐等,使得数据的表示、理解、计算和运用等多个环节都面临着极大的挑战。数据的质量是制约数据使用的“瓶颈”,作为提高数据质量的重要解决技术,数据清洗和数据融合是多源异构数据处理中的热点研究领域,具有重要的价值与意义。但是传统数据清洗方法借助硬编码方法实现业务逻辑,导致系统的可重用性、可扩展性与灵活性较差。另外,现实中的许多应用经常需要集成来自不同途径的异构数据,如何确保这些数据的一致性正逐渐成为一个必须要解决的问题,即实体识别技术。目前在用交通业务系统31个,交通信号控制路口194个、治安测速卡口66个断面、闯红灯抓拍系统192个路口、交通诱导系统86套、流量监测 ...
【技术保护点】
1.一种基于大数据平台的多源数据融合共享实现方法,其特征在于,包括:配置至少一个数据源信息和定时规则,并按照所配置的定时规则执行数据接入作业,其中,所述数据接入作业为从所获取的至少一个数据源中抽取数据、或互联网数据采集、或转换数据、或装载数据至大数据平台;对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业;对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库;通过在所构建的大数据平台中设置统一的数据交换接口进行数据共享。
【技术特征摘要】
1.一种基于大数据平台的多源数据融合共享实现方法,其特征在于,包括:配置至少一个数据源信息和定时规则,并按照所配置的定时规则执行数据接入作业,其中,所述数据接入作业为从所获取的至少一个数据源中抽取数据、或互联网数据采集、或转换数据、或装载数据至大数据平台;对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业;对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库;通过在所构建的大数据平台中设置统一的数据交换接口进行数据共享。2.根据权利要求1所述的方法,其特征在于,所述对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业包括:当所接入的数据为记录级别数据时,则对所述记录级别数据的融合作业包括将记录各条件的数据进行信息校验;当所接入的数据为字段级别数据时,则对所述记录级别数据的融合作业包括字段校验、或字段转换。3.根据权利要求2所述的方法,其特征在于,所述数据融合作业通过ETL方法对待融合数据进行处理;其中,在所述ETL方法中将ETL实现类采用装饰模式,并配置对应的配置文件用以依次实现过滤进程、转化进程和过滤进程。4.根据权利要求1-3任一所述的方法,其特征在于,所述对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库包括:输入数据目录、数据字段数、数据rowkey字段、专题库名称参数中一种或者任意组合;根据Hbase连接方式与专题库名称,实例化连接;读取所述数据对应类型最新一次加载日期或者时间记录,计算上次加载时间间隔;判断所述时间间隔是否大于所述定时规则中所配置的时间周期;当所述时间间隔大于所述定时规则中所配置的时间周期时,则日志记录前一个或多个加载失败周期,然后检查日志并执行重新加载作业;或者,当所述时间间隔不大于所述定时规则中所配置的时间周期时,则根据传入的分隔符,逐条拆分记录;拆分后的数组长度同传入的字段总数比较,保留两者相同的数据;根据传入字段下标,将字段整合成主键;数据put到hbase;执行结束后,记录该次时间周期执行加载成功。5.根据权利要求1-4任一所述的方法,其特征在于,在对融合分析后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库之后,所述方法还包括:设置可配置脚本,并实现库和表的自动化创建以及数据加载。6.根据权利要求1-5任一所述的方法,其特征在于,所述通过在大数据平台中建立标准统一数据交换接口进行数据共享包括:当所进行的数据共享为数据查询共享时,通过JavaAPI或者Rest向上层应用提供请求响应模式的...
【专利技术属性】
技术研发人员:张帅,谢莹莹,郭庆,宋怀明,蒋丹东,
申请(专利权)人:中科曙光国际信息产业有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。