本申请涉及一种集约型数据存储方法及系统,该方法包括:实时获取第一源数据,第一源数据为跨专业的海量大数据。根据第一源数据的格式类型,对第一源数据设置格式特征值、入库标签和目标入库特征值,入库标签包括入库成功标签和入库失败标签。获取第二源数据并根据格式特征值判断第二源数据的内容是否符合格式要求,若符合,则对第二源数据进行格式转换。根据格式特征值对第二源数据进行格式转换,使得第二源数据获得符合目标入库特征值的非关系性数据库消息体。根据目标入库特征值对非关系性数据库消息体进行分解并将其封装为最佳入库粒度。根据目标入库特征值和最佳入库粒度,通过多线程技术将非关系性数据库消息体存储于非关系型数据库。非关系型数据库。非关系型数据库。
【技术实现步骤摘要】
集约型数据存储方法及系统
[0001]本专利技术涉及数据存储
,特别是涉及一种集约型数据存储方法及系统。
技术介绍
[0002]随着互联网的快速发展,互联网中数据的种类和规模都在以惊人的速度增长,大数据时代的来临已经成为现实。目前对数据的存储,包括存储非结构化数据的非结构化数据存储和存储结构化数据的结构化数据存储。其中,非结构化数据即行数据,可以用二维表结构来逻辑表达实现的数据,存在非关系型数据库中,比如:使用JavaScript对象简谱(JavaScriptObjectNotation,JSON)通过超文本传输协议来索引数据的分布式搜索服务器(ElasticSearch,ES)。相对于非结构化数据而言,不方便用数据库二维逻辑来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、可扩展标记语言(ExtensibleMarkupLanguage,XML)、超文本标记语言(HyperTextMarkupLanguage,HTML)、各类报表、图像和音频视频信息等等,存储在关系型数据库中。随着大数据逐步在各行业的应用,海量数据的查询遇到前所未有的挑战。
[0003]在大数据领域,保障该兵法、高性能、高存储等多因素要求,尤其在涉及时间序列查询人员信息等业务场景中,通常采用关系数据库的方式进行时序大数据的存储和处理,然而由于关系型数据库天生的劣势导致其无法进行高效地对时序大数据进行存储和查询,造成时序大数据的业务使用受到相关的影响。对于大数据的存储和处理采用关系型数据库的方式进行处理,但是由于关系型数据库天生的劣势导致其无法进行高效的存储和高效的查询,同时针对不同类型的文件格式以及消息通知类型,需要开发定制化的程序来进行数据的存储,极大地造成人力、物理的资源浪费、存储空间的消耗以及查询效率的降低。当前,相关技术人员采用了特殊的海量数据时序库Druid来管理时序大数据,以使时序大数据可以高效存储和快速处理海量时序大数据。然而,在目前的场景中,如果时序数据离散性、时延性较强,则会造成Druid在消费数据过程中出现严重的数据摄入调度问题,例如,段数据无法从分布式系统基础架构hadoop上进行加载以及源数据数据集mysql负载大等,造成摄入数据任务大概率失败。此外,在数据查询环节,由于当前采用单标存储,数据量大,造成查询性能差。
[0004]综上所述,一般的对大数据存储和处理的方法由于关系型数据库的局限性导致大数据的存储效率较低且查询效率较低。
技术实现思路
[0005]基于此,有必要提供一种集约型数据存储方法及系统,能够将不同维度的文件内容和消息类型进行统一处理为要存储的非关系型数据库的数据格式,来提高大数据存储的入库效率和查询效率。
[0006]第一方面,本申请提供一种集约型数据存储方法,所述方法包括:
[0007]实时获取第一源数据,所述第一源数据为跨专业的海量大数据;
[0008]根据所述第一源数据的格式类型,对所述第一源数据设置格式特征值、入库标签和目标入库特征值,所述入库标签包括入库成功标签和入库失败标签;
[0009]获取第二源数据并根据所述第一源数据的格式特征值判断所述第二源数据的内容是否符合格式要求,若符合,则对所述第二源数据进行格式转换;
[0010]根据所述格式特征值对所述第二源数据进行格式转换,使得所述第二源数据获得符合所述目标入库特征值的非关系性数据库消息体;
[0011]根据所述目标入库特征值对所述非关系性数据库消息体进行分解并将其封装为最佳入库粒度;
[0012]根据所述目标入库特征值和最佳入库粒度,通过多线程技术将所述非关系性数据库消息体存储于非关系型数据库。
[0013]在其中一个实施例中,所述获取第二源数据并根据所述第一源数据的格式特征值判断所述第二源数据的内容是否符合格式要求,包括:
[0014]若所述第二源数据的内容不符合所述第一源数据的格式要求,则丢弃所述第二源数据并标记所述入库失败标签;
[0015]对符合所述第一源数据的格式要求的第二源数据标记所述入库成功标签。
[0016]在其中一个实施例中,所述方法还包括:
[0017]对具有所述入库失败标签的第二源数据进行重新入库,以保证所述第二源数据的完整性。
[0018]在其中一个实施例中,所述通过多线程技术将所述非关系性数据库消息体存储于非关系型数据库,之后包括:
[0019]将所述非关系型数据库中存储的数据发送至上层应用,所述上层应用用于读取所述非关系型数据库中存储的数据并对其进行分析判断。
[0020]在其中一个实施例中,所述方法还包括:
[0021]记录数据处理日志,所述数据处理日志用于调阅具有所述入库成功标签的第二源数据和具有入库失败标签的第二源数据。
[0022]在其中一个实施例中,所述最佳入库粒度等于消息体数据量、错误率以及目标库系数之间的乘积与带宽系数、闲忙时间系数以及并发线程系数之间的乘积的比值。
[0023]第二方面,本申请提供一种集约型数据存储系统,所述系统包括:
[0024]数据获取模块,用于实时获取第一源数据,所述第一源数据为跨专业的海量大数据;
[0025]数据配置模块,用于根据所述第一源数据的格式类型,对所述第一源数据设置格式特征值、入库标签和目标入库特征值,所述入库标签包括入库成功标签和入库失败标签;
[0026]提取过滤模块,用于获取第二源数据并根据所述第一源数据的格式特征值判断所述第二源数据的内容是否符合格式要求,若符合,则对所述第二源数据进行格式转换;
[0027]数据处理模块,用于根据所述格式特征值对所述第二源数据进行格式转换,使得所述第二源数据获得符合所述目标入库特征值的非关系性数据库消息体;
[0028]粒度配置模块,用于根据所述目标入库特征值对所述非关系性数据库消息体进行分解并将其封装为最佳入库粒度;
[0029]多线程存储模块,用于根据所述目标入库特征值和最佳入库粒度,通过多线程技
术将所述非关系性数据库消息体存储于非关系型数据库。
[0030]在其中一个实施例中,所述系统还包括:
[0031]非关系型数据库模块,用于将所述非关系型数据库中存储的数据发送至上层应用,所述上层应用用于读取所述非关系型数据库中存储的数据并对其进行分析判断;
[0032]日志调阅模块,用于记录数据处理日志,所述数据处理日志用于调阅具有所述入库成功标签的第二源数据和具有入库失败标签的第二源数据;
[0033]再入库模块,用于对具有所述入库失败标签的第二源数据进行重新入库,以保证所述第二源数据的完整性。
[0034]第三方面,本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0035]实时获取第一源数据,所述第一源数据为跨专业的海量大数据;
[0036]根据所述第一源数据的格式类型,对所述本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种集约型数据存储方法,其特征在于,所述方法包括:实时获取第一源数据,所述第一源数据为跨专业的海量大数据;根据所述第一源数据的格式类型,对所述第一源数据设置格式特征值、入库标签和目标入库特征值,所述入库标签包括入库成功标签和入库失败标签;获取第二源数据并根据所述第一源数据的格式特征值判断所述第二源数据的内容是否符合格式要求,若符合,则对所述第二源数据进行格式转换;根据所述格式特征值对所述第二源数据进行格式转换,使得所述第二源数据获得符合所述目标入库特征值的非关系性数据库消息体;根据所述目标入库特征值对所述非关系性数据库消息体进行分解并将其封装为最佳入库粒度;根据所述目标入库特征值和最佳入库粒度,通过多线程技术将所述非关系性数据库消息体存储于非关系型数据库。2.根据权利要求1所述的集约型数据存储方法,其特征在于,所述获取第二源数据并根据所述第一源数据的格式特征值判断所述第二源数据的内容是否符合格式要求,包括:若所述第二源数据的内容不符合所述第一源数据的格式要求,则丢弃所述第二源数据并标记所述入库失败标签;对符合所述第一源数据的格式要求的第二源数据标记所述入库成功标签。3.根据权利要求2所述的集约型数据存储方法,其特征在于,所述方法还包括:对具有所述入库失败标签的第二源数据进行重新入库,以保证所述第二源数据的完整性。4.根据权利要求1所述的集约型数据存储方法,其特征在于,所述通过多线程技术将所述非关系性数据库消息体存储于非关系型数据库,之后包括:将所述非关系型数据库中存储的数据发送至上层应用,所述上层应用用于读取所述非关系型数据库中存储的数据并对其进行分析判断。5.根据权利要求1所述的集约型数据存储方法,其特征在于,所述方法还包括:记录数据处理日志,所述数据处理日志用于调阅具有所述入库成功标签的第二源数据和具有入库失败标签的第二源数据。6.根据权利要求1所述的集约型数据存储方法,其特征在于,所述最佳入库...
【专利技术属性】
技术研发人员:李志辉,唐凯伦,党咏欣,曲欣,石彦彬,郭建章,
申请(专利权)人:中电信数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。