【技术实现步骤摘要】
一种数据采集格式协议转换方法及装置
[0001]本申请涉及数据协议
,特别是涉及一种数据采集格式协议转换方法、装置、电子设备和介质。
技术介绍
[0002]不论企业数字化转型处于哪一个阶段,数据采集同步都是企业最实际最高频的需求。
[0003]一方面,企业的精细化运营对实时数据的需求在不断膨胀,实时数据能够帮助企业以最快速度收集来自传感器如工业领域的机器转速、温度、压力、流量等、股票行情、服务器日志、传统数据库甚至是Hadoop系统的数据。以实时或近乎实时的方式挖掘出有价值的信息,对企业快速做出决策有着重大意义。
[0004]另一方面,随着生产设备和相关技术的智能化升级,以及全球市场无时无刻都在变化的需求,行业内实时数据的采集与计算相关标准已经提升到了秒级要求,当前的批处理数据架构难以应对,需要构建新一代的实时数据架构体系以实现“换挡加速”。
[0005]数据采集实时同步方案中存在消息中间件进行削峰填谷,以及多对多数据同步的场景,数据采集格式目前市面上有canal_json,maxwel_json,debezium_json三种格式,但是都存在一个缺点,就是数据冗余比较多,占据了不必要的磁盘空间,怎样有效的简化磁盘读写,以及降低磁盘IO,降低内存消耗,从而降低服务器整体的资源池消耗是一个需要解决的问题。
技术实现思路
[0006]基于上述问题,本申请提供一种数据采集格式协议转换方法、装置、电子设备和介质。
[0007]第一方面,本申请实施例提供一种数据采集格式协议 ...
【技术保护点】
【技术特征摘要】
1.一种数据采集格式协议转换方法,其特征在于,包括:通过构建包括Kafka的序列化与反序列化和构建Flink的格式之DATA
‑
CSV格式将第一种采集格式的协议转换为
‑
DATA
‑
CSV格式的协议;其中,所述构建包括Kafka的序列化与反序列化,包括:通过构建序列化模块,构建包括Kafka数据流的序列化与反序列化类;通过创建POJO序列化模块,获取创建的自定义的数据格式,将所述自定义的数据格式转化为自定义的数据格式对应字段名称的POJO类;通过转化模块将POJO类转换为
‑
DATA
‑
CSV格式;所述第一种采集格式的协议至少包括:canal_json,maxwel_json和debezium_json的协议。2.根据权利要求1所述的一种数据采集格式协议转换方法,其特征在于,所述构建Flink的格式之
‑
DATA
‑
CSV格式,包括:Flink的table
‑
api的format和connector,提取第一种采集格式的协议中的数据;通过Flink SQL对所述第一种采集格式的协议中的数据转换得到
‑
DATA
‑
CSV数据;对所述
‑
DATA
‑
CSV数据进行SQL处理;其中,所述
‑
DATA
‑
CSV格式的协议中的
‑
DATA
‑
CSV格式是分隔的数据格式。3.根据权利要求1所述的一种数据采集格式协议转换方法,其特征在于,所述
‑
DATA
‑
CSV格式的协议的规则,至少包括如下七种:一:开头不留空,以行为单位;二:可含或不含列名,含列名则括起来;三:一行数据不跨行,无空行;四:以不可见字符作分隔符,列为空也要表达其存在;五:列内容如存在ASCII码,替换成转义字符,用半角引号将该字段值包含起来;六:文件读写时,ASCII码操作规则互逆;七:内码格式不限。4.根据权利要求1所述的一种数据采集格式协议转换方法,其特征在于,所述
‑
DATA
‑
CSV格式的协议中的转义要求至少包括如下三种:一、包含类型对应的ASCII码、关键key对应的ASCII码和换行符的字段在所述类型对应的ASCII码、所述关键key对应的ASCII码和所述换行符的字段前面添加一个转义字符;二、字段内部的类型对应ASCII码、关键key对应的ASCII码在前面增加一个转义字符实现文字引号的转码;三、对于同步需要的特定字段分别使用相应的ASCII码一一对应。5.根据权利要求4所述的一种数据采集格式协议转换方法,其特征在于,所述对于同步需要的特定字段分别使用相应的ASCII码一一对应,包括:数据来源source与(ACII码/LF=0x0B)对应;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。