一种数据采集格式协议转换方法及装置制造方法及图纸

技术编号:38030223 阅读:11 留言:0更新日期:2023-06-30 10:56
本申请涉及一种数据采集格式协议转换方法、装置、电子设备和介质,该方法包括:通过构建包括Kafka的序列化与反序列化和构建Flink的格式之DATA

【技术实现步骤摘要】
一种数据采集格式协议转换方法及装置


[0001]本申请涉及数据协议
,特别是涉及一种数据采集格式协议转换方法、装置、电子设备和介质。

技术介绍

[0002]不论企业数字化转型处于哪一个阶段,数据采集同步都是企业最实际最高频的需求。
[0003]一方面,企业的精细化运营对实时数据的需求在不断膨胀,实时数据能够帮助企业以最快速度收集来自传感器如工业领域的机器转速、温度、压力、流量等、股票行情、服务器日志、传统数据库甚至是Hadoop系统的数据。以实时或近乎实时的方式挖掘出有价值的信息,对企业快速做出决策有着重大意义。
[0004]另一方面,随着生产设备和相关技术的智能化升级,以及全球市场无时无刻都在变化的需求,行业内实时数据的采集与计算相关标准已经提升到了秒级要求,当前的批处理数据架构难以应对,需要构建新一代的实时数据架构体系以实现“换挡加速”。
[0005]数据采集实时同步方案中存在消息中间件进行削峰填谷,以及多对多数据同步的场景,数据采集格式目前市面上有canal_json,maxwel_json,debezium_json三种格式,但是都存在一个缺点,就是数据冗余比较多,占据了不必要的磁盘空间,怎样有效的简化磁盘读写,以及降低磁盘IO,降低内存消耗,从而降低服务器整体的资源池消耗是一个需要解决的问题。

技术实现思路

[0006]基于上述问题,本申请提供一种数据采集格式协议转换方法、装置、电子设备和介质。
[0007]第一方面,本申请实施例提供一种数据采集格式协议转换方法,包括:
[0008]通过构建包括Kafka的序列化与反序列化和构建Flink的格式之DATA

CSV格式将第一种采集格式的协议转换为

DATA

CSV格式的协议;
[0009]其中,构建包括Kafka的序列化与反序列化,包括:
[0010]通过构建序列化模块,构建包括Kafka数据流的序列化与反序列化类;通过创建POJO序列化模块,获取创建的自定义的数据格式,将自定义的数据格式转化为自定义的数据格式对应字段名称的POJO类;通过转化模块将POJO类转换为

DATA

CSV格式;
[0011]第一种采集格式的协议至少包括:canal_json,maxwel_json和debezium_json的协议。
[0012]进一步地,上述一种数据采集格式协议转换方法中,构建Flink的格式之

DATA

CSV格式,包括:
[0013]Flink的table

api的format和connector,提取第一种采集格式的协议中的数据;
[0014]通过Flink SQL对所述第一种采集格式的协议中的数据转换得到

DATA

CSV数据;
[0015]对

DATA

CSV数据进行SQL处理;
[0016]其中,

DATA

CSV格式的协议中的

DATA

CSV格式是分隔的数据格式。
[0017]进一步地,上述一种数据采集格式协议转换方法中,

DATA

CSV格式的协议的规则,至少包括如下七种:
[0018]一:开头不留空,以行为单位;
[0019]二:可含或不含列名,含列名则括起来;
[0020]三:一行数据不跨行,无空行;
[0021]四:以不可见字符作分隔符,列为空也要表达其存在;
[0022]五:列内容如存在ASCII码,替换成转义字符,用半角引号将该字段值包含起来;
[0023]六:文件读写时,ASCII码操作规则互逆;
[0024]七:内码格式不限。
[0025]进一步地,上述一种数据采集格式协议转换方法中,

DATA

CSV格式的协议中的转义要求至少包括如下三种:
[0026]一、包含类型对应的ASCII码、关键key对应的ASCII码和换行符的字段在类型对应的ASCII码、关键key对应的ASCII码和换行符的字段前面添加一个转义字符;
[0027]二、字段内部的类型对应ASCII码、关键key对应的ASCII码在前面增加一个转义字符实现文字引号的转码;
[0028]三、对于同步需要的特定字段分别使用相应的ASCII码一一对应。
[0029]进一步地,上述一种数据采集格式协议转换方法中,对于同步需要的特定字段分别使用相应的ASCII码一一对应,包括:
[0030]数据来源source与(ACII码/LF=0x0B)对应;
[0031]日志采集时间ts_ms与(ACII码/LF=0x0C)对应;
[0032]操作类型op与(ACII码/LF=0x0D)对应;
[0033]元数据schema与(ACII码/LF=0x0F)对应。
[0034]进一步地,上述一种数据采集格式协议转换方法中,

DATA

CSV格式的协议中的文件是一种用换行符分割的文本文件;
[0035]文本文件以纯文本形式存储表格数据;
[0036]文本文件是一个字符序列;
[0037]文本文件由多个记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是字符或字符串;多个记录中均有完全相同的字段序列;
[0038]文本文件使用WORDPAD或记事本开启记录;
[0039]文本文件中每个记录是一个行终止换行符(ACII码/LF=0x0A)或回车换行符(ASCII码/CRLF=0x0D0A);
[0040]其中,0x0A在C#中代表字符'\n',0x0D0A在C#中代表字符串"\r\n"。
[0041]进一步地,上述一种数据采集格式协议转换方法中,

DATA

CSV格式的协议中的字段值包含多种类型,每一种类型设置一个对应的ASCII码;
[0042]‑
DATA

CSV格式的协议中的字段值以类型对应ASCII码的括住,行内包含一个项目是空,以类型对应ASCII码括住;
[0043]‑
DATA

CSV格式的协议中的字段包若含类型对应ASCII码,以类型对应ASCII码括
住,并对类型对应的ASCII码进行转义;
[0044]‑
DATA

CSV格式的协议中的字段的值若含类型对应ASCII码,双写类型对应ASCII码。
[0045]第二方面,本申请实施例还提供一种数据采集格式协议转换装置,包括:构建模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据采集格式协议转换方法,其特征在于,包括:通过构建包括Kafka的序列化与反序列化和构建Flink的格式之DATA

CSV格式将第一种采集格式的协议转换为

DATA

CSV格式的协议;其中,所述构建包括Kafka的序列化与反序列化,包括:通过构建序列化模块,构建包括Kafka数据流的序列化与反序列化类;通过创建POJO序列化模块,获取创建的自定义的数据格式,将所述自定义的数据格式转化为自定义的数据格式对应字段名称的POJO类;通过转化模块将POJO类转换为

DATA

CSV格式;所述第一种采集格式的协议至少包括:canal_json,maxwel_json和debezium_json的协议。2.根据权利要求1所述的一种数据采集格式协议转换方法,其特征在于,所述构建Flink的格式之

DATA

CSV格式,包括:Flink的table

api的format和connector,提取第一种采集格式的协议中的数据;通过Flink SQL对所述第一种采集格式的协议中的数据转换得到

DATA

CSV数据;对所述

DATA

CSV数据进行SQL处理;其中,所述

DATA

CSV格式的协议中的

DATA

CSV格式是分隔的数据格式。3.根据权利要求1所述的一种数据采集格式协议转换方法,其特征在于,所述

DATA

CSV格式的协议的规则,至少包括如下七种:一:开头不留空,以行为单位;二:可含或不含列名,含列名则括起来;三:一行数据不跨行,无空行;四:以不可见字符作分隔符,列为空也要表达其存在;五:列内容如存在ASCII码,替换成转义字符,用半角引号将该字段值包含起来;六:文件读写时,ASCII码操作规则互逆;七:内码格式不限。4.根据权利要求1所述的一种数据采集格式协议转换方法,其特征在于,所述

DATA

CSV格式的协议中的转义要求至少包括如下三种:一、包含类型对应的ASCII码、关键key对应的ASCII码和换行符的字段在所述类型对应的ASCII码、所述关键key对应的ASCII码和所述换行符的字段前面添加一个转义字符;二、字段内部的类型对应ASCII码、关键key对应的ASCII码在前面增加一个转义字符实现文字引号的转码;三、对于同步需要的特定字段分别使用相应的ASCII码一一对应。5.根据权利要求4所述的一种数据采集格式协议转换方法,其特征在于,所述对于同步需要的特定字段分别使用相应的ASCII码一一对应,包括:数据来源source与(ACII码/LF=0x0B)对应;...

【专利技术属性】
技术研发人员:张志华
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1