本发明专利技术公开一种多源异构数据的治理方法及系统,方法包括:确认数据来源、数据结构与数据类型;对数据进行对应存储引擎处理;对所存储数据进行计算与优化处理;对处理后的数据生成标准SQL接口。本发明专利技术通过多源异构数据的治理系统将不同来源的不同结构数据进行存储、计算与优化处理,生成标准SQL接口,消除数据孤岛,实现数据共享,快速的响应业务和应用开发的需求,提升开发运维效率。提升开发运维效率。提升开发运维效率。
【技术实现步骤摘要】
一种多源异构数据的治理方法及系统
[0001]本专利技术涉及数据库
,具体涉及一种多源异构数据的治理方法及系统。
技术介绍
[0002]随着互联网行业的飞速发展,业务、应用数据量不断暴涨。为了解决大数据带来的性能挑战,键值数据库、文档数据库、宽列数据库、时序数据库等专业数据库相继出现,使得业务成为可能。
[0003]但,在数据应用过程中,无法实现数据的统一共享,每一个数据库就相当于一个数据孤岛,应用需要去各个数据库抓取数据到内存,再进行各个数据的处理。
技术实现思路
[0004]为了解决
技术介绍
中提出的问题,本专利技术提供一种多源异构数据的治理方法及系统,通过封装数据引擎,消除数据孤岛,以实现数据共享。
[0005]本专利技术的技术方案是这样实现的:
[0006]一种多源异构数据的治理方法,包括:
[0007]步骤S1、确认数据来源、数据结构与数据类型;
[0008]步骤S2、对数据进行对应存储引擎处理;
[0009]步骤S3、对所存储数据进行计算与优化处理;
[0010]步骤S4、对处理后的数据生成标准SQL接口。
[0011]进一步地方案为:所述步骤S1中,根据源表信息确认所述数据来源与所述数据结构,根据源表字段判断所述数据类型。
[0012]进一步地方案为:所述步骤S3中,具体包括:
[0013]S301、根据数据类型,对数据进行关联、聚集、合并与计算;
[0014]S302、根据不同数据结构与数据类型,选择RLE算法、哈夫曼算法、Delta2、XOR编码、Snappy算法或Rice算法对数据进行高效压缩;
[0015]S303、建立倒排索引或位图索引。
[0016]进一步地方案为:所述标准SQL接口根据JDBC标准,并通过指定Token或者用户名、密码生成。
[0017]同时,本专利技术的技术方案是这样实现的:
[0018]一种多源异构数据的治理系统,包括:
[0019]信息确认模块:用于确认数据来源、数据接口和数据类型;
[0020]存储引擎模块:用于根据数据结构与数据类型,选择存储引擎对数据进行存储;
[0021]计算引擎模块:用于对数据进行关联、聚集、合并与计算;
[0022]优化引擎模块:用于根据不同数据结构与数据类型,选择RLE算法、哈夫曼算法、Delta2、XOR编码、Snappy算法或Rice算法对数据进行高效压缩,并建立倒排索引或位图索引;
[0023]接口生成模块:用于对计算引擎模块和优化引擎模块进行处理后的数据生成标准SQL接口。
[0024]采用了上述技术方案,本专利技术的有益效果为:
[0025]本专利技术将不同来源的不同结构数据进行存储、计算与优化处理,生成标准SQL接口,消除数据孤岛,实现数据共享,快速的响应业务和应用开发的需求,提升开发运维效率。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
[0027]图1为本专利技术实施例的一种多源异构数据的治理方法流程图;
[0028]图2为本专利技术实施例的源表信息图;
[0029]图3为本专利技术实施例的一种多源异构数据的治理系统示意图。
具体实施方式
[0030]下面结合本专利技术实施例的附图对本专利技术实施例的技术方案进行解释和说明,但下述实施例仅仅为本专利技术的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本专利技术的保护范围。
[0031]实施例1;
[0032]如图1
‑
2所示,本实施例的一种多源异构数据的治理方法,具体步骤如下:
[0033]步骤S1、确认数据来源、数据结构与数据类型:
[0034]根据源表信息确认数据来源与数据结构;根据源表字段判断数据类型。
[0035]具体的,根据如图2所示的源表信息确认数据为工厂设备实时采集数据,判断出所确认数据为时序数据,根据时序数据特点:measurement、tag keys、tag values、field keys数据类型为字符串,field values数据类型为浮点型;本实施例中,通过信息确认模块中对数据来源、数据接口及数据类型进行确认。
[0036]步骤S2、对数据进行对应存储引擎处理:
[0037]根据数据结构与数据类型选择存储引擎进行处理。
[0038]本实施例中,选择时序存储引擎模块,通过新建meachine_data,设置tag与field字段,对数据进行存储。
[0039]步骤S3、对所存储数据进行计算与优化处理:
[0040]具体的,对所存储数据进行计算与优化处理,包括:
[0041]S301、根据数据类型,对数据进行关联、聚集、合并与计算;
[0042]S302、根据不同数据结构与数据类型,选择RLE算法、哈夫曼算法、Delta2、XOR编码、Snappy算法或Rice算法对数据进行高效压缩;
[0043]S303、建立倒排索引或位图索引,提高多维组合查询效率。
[0044]本实施例中,在计算引擎模块中,通过Continuous Query(CQ)连续查询计算出每小时机器的平均温度,存储到新的average_temperatures中;
[0045]CREATE CONTINUOUS QUERY"cq_basic"ON"transportation"
[0046]BEGIN
[0047]select mean("temperature")into"average_temperatures"from"meachine_data"group by time(1h)
[0048]END
[0049]在优化引擎模块中,根据average_temperatures中不同数据类型,选择Delta2压缩时间戳数据,使用XOR编码对浮点数据进行无损压缩,采用Snappy算法对字符串数据进行高效压缩;
[0050]通过保留策略Retention Policy(RP)设置老旧数据保留时间为4周,定期自动清理过期数据,节约磁盘存储空间。
[0051]create retention policy"four_weeks"on"food_data"duration 4wreplication 1。
[0052]步骤S4、对处理后的数据生成标准SQL接口:
[0053]具体的,标准SQL接口根据JDBC标准,并通过指定Token或者用户名、密码生成。
[0054]本实施例中,在接口生成模块中通过指定用户名、密码生成如下SQL接口,供研发直接调用:
[0055]"http://localhost:8086/write?u=admin&p本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种多源异构数据的治理方法,其特征在于,包括:步骤S1、确认数据来源、数据结构与数据类型;步骤S2、对数据进行对应存储引擎处理;步骤S3、对所存储数据进行计算与优化处理;步骤S4、对处理后的数据生成标准SQL接口。2.根据权利要求1所述一种多源异构数据的治理方法,其特征在于,所述步骤S1中,根据源表信息确认所述数据来源与所述数据结构,根据源表字段判断所述数据类型。3.根据权利要求1所述一种多源异构数据的治理方法,其特征在于,所述步骤S3中,具体包括:S301、根据数据类型,对数据进行关联、聚集、合并与计算;S302、根据不同数据结构与数据类型,选择RLE算法、哈夫曼算法、Delta2、XOR编码、Snappy算法或Rice算法对数据进行高效压缩;S30...
【专利技术属性】
技术研发人员:张志强,
申请(专利权)人:四川启睿克科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。