一种可视化多模态数据采集、传输、处理的方法技术

技术编号:38930259 阅读:21 留言:0更新日期:2023-09-25 09:35
本发明专利技术提供一种可视化多模态数据采集、传输、处理的方法,属于数据治理技术领域,本发明专利技术实现组件模型描述及扩展,构建多模态采集组件,数据传输基于Flink的流批一体进行传输,传输过程进行数据加密解密保证数据安全,提供数据清洗、数据提取、数据标识的处理组件,编排组件实现可视化设计数据处理任务模型,构造模型语言转换器支持完成数据处理。实现可视化的组件编排快速构建数据处理任务,实现高效的数据处理。处理。处理。

【技术实现步骤摘要】
一种可视化多模态数据采集、传输、处理的方法


[0001]本专利技术涉及数据治理
,尤其涉及一种可视化多模态数据采集、传输、处理的方法。

技术介绍

[0002]目前由于分散的数据源、数据类型的多模态化使数据管理复杂性进一步复杂化,增加了数据治理的难度。针对结构化、非结构化、物联感知、音视频或空间数据等多模态化、数据量大、高速流转、质量参差不齐、价值密度高低不一等数据特性,如何做到多模态数据的可视化接入、采集、传输及处理,需要提供满足不同模态数据的采集组件、数据处理加工组件及支持可视化的组件编排,同时基于Flink的流批一体数据传输,实现快速高效的数据处理。

技术实现思路

[0003]为了解决以上技术问题,本专利技术提供了一种可视化多模态数据采集、传输、处理的方法。通过构建多模态数据采集组件,并且结合丰富多样的数据处理加工组件,支持在画布中拖拽式增加组件节点,实现可视化的组件编排快速构建数据处理任务,同时基于Flink的流批一体数据传输,采用分布式处理引擎进行数据采集,实现高效的数据处理。
[0004]本专利技术的技术方案是:
[0005]一种可视化多模态数据采集、传输、处理的方法,实现组件模型描述及扩展,构建多模态采集组件,数据传输基于Flink的流批一体进行传输,传输过程进行数据加密解密保证数据安全,提供数据清洗、数据提取、数据标识的处理组件,编排组件实现可视化设计数据处理任务模型,构造模型语言转换器支持完成数据处理。
[0006]进一步的,
[0007]实现组件模型描述及扩展
[0008]首先定义公共组件模型,包含公共基本属性及公共方法,其中基本属性有数据源信息、输出字段、转换的sql列,公共方法有获取当前节点数据源的对应列信息列表、校验组件、校验参数值是否合法、获取上一个节点的输出列;
[0009]由公共组件模型扩展出Reader、Rule及Writer三类组件,扩展后的组件增加个性属性、实现公共组件的抽象方法;再由Reader、Rule及Writer组件模型分别扩展实现多模态采集组件、处理组件及分发组件,组件模型的属性在可视化拖拽增加组件使用过程中展示为组件参数需要用户进行填写。
[0010]构建多模态采集组件,包括
[0011]a)结构化数据
[0012]读数据表组件支持采集结构化数据,组件参数包括数据源、数据库、模式、数据表、分片数量、where条件、分片字段、更新字段;
[0013]b)非结构化数据
[0014]对于非结构化数据提供hbase读取、hdfs读取、redis读取、MongoDB读取等采集组件,其中hdfs读取组件参数包括数据源、路径、分隔符、读取字段、正则匹配、文件类型、分片数量;
[0015]c)物联感知
[0016]物联数据读取组件需要提供通信协议类型、允许客户端IP、校验票据、数据格式,数据采集过程中会先启动监听网络程序,连接上客户端,用于接收被采集客户端的连接请求,等待客户端连接,然后校验客户端合法性,校验通过后客户端即可与采集组件建立连接发送数据;
[0017]如果通信协议类型为TCP协议,则采集组件生成TCP采集驱动以开始采集,若为RTU协议,则生成RTU采集驱动以开始采集,若为RAW协议,则生成RAW采集驱动以开始采集,采集驱动根据数据格式进行数据转换后写入数据库、Elasticsearch或者是发送到MQTT、Kafka的Topic里面去。
[0018]d)音视频
[0019]音视频读取组件支持采集AAC格式的音频、H264格式的视频;组件会根据文件名后缀来选择对应的音视频解码器,把一帧未解码的压缩数据发送给解码器,解码器解码视频图像帧获得YUV视频图像,然后基于内容识别算法对图像进行分析,并根据预设的事件策略进行筛选;
[0020]e)空间数据
[0021]矢量数据读取组件支持SHP、DWG、DXF的类型空间数据的采集,栅格数据读取组件支持ERDAS Imagine、GeoTIFF的类型空间数据的采集。
[0022]数据传输
[0023]数据传输基于Apache Flink,同时支持批处理和流处理。
[0024]数据处理组件
[0025]基于Rule组件模型扩展实现处理组件,处理组件的属性即为页面中需要配置的参数,数据处理组件包括基础组件、数据提取组件、数据清洗组件、数据标识组件和数据质量组件;
[0026]1)基础组件支持选择字段、数据合流、聚合操作、打标、排序topN;
[0027]2)提取组件包括中文字符提取、手机号提取、xml解析、json解析、数据字段拆分;
[0028]3)清洗组件支持替换字符串、身份证15位转18位、增加固定值、字符串排空、字典替换、字段加密、扩展字段、计算值、过滤数据、去重;
[0029]4)标识组件包括第三方标识接口、人员年代标签、车辆类型标签;
[0030]5)质量组件包括身份证校验、字典取值校验、手机号校验的有效性组件及时间关联性校验的组件。
[0031]可视化设计数据处理任务模型
[0032]支持在画布中拖拽式增加组件,组件之间添加连线,多模态采集组件作为源头只有输出、中间部分是处理组件,既有输入又有输出,分发组件作为结束只有输入,实现可视化的组件编排快速构建数据处理任务模型。
[0033]构造模型语言转换器
[0034]实现Flink、FlinkSQL、Spark、Kettle的数据处理语言的转换。
[0035]提供消防火警警情发生时数据采集、传输、处理的场景,操作如下:
[0036]读数据表采集设备信息,物联数据读取组件采集传输设备终端数据,音视频读取组件采集现场摄像头视频数据,矢量数据读取组件采集建筑设计图。具体步骤如下:
[0037]1)添加采集组件:
[0038]1.1)读数据表组件采集Mysql类型数据库的设备信息表,在画布中拖拽增加读数据表组件并配置参数数据源、数据库、模式、数据表;
[0039]1.2)物联数据读取组件采集TCP通信协议传输设备终端数据,采集组件生成TCP采集驱动以开始采集并进行数据格式转换,获取警情发生位置,之后发送到Kafka的Topic里面去;
[0040]1.3)音视频读取组件采集现场摄像头视频数据,解码视频图像,然后基于内容识别算法对图像进行分析,筛选出火灾发生原因相关的图像;
[0041]1.4)矢量数据读取组件采集建筑设计图,提取标注的消防设备实体对象,关联警情位置数据获取附近的消防设备;
[0042]3)编排设计数据处理任务模型
[0043]2.1)去掉设备序号字段中的空格,拖拽增加字符串排空组件,选填字段和回填字段参数选择设备序号;
[0044]2.2)如果有设备序号重复的数条数据,保留入库时间最新的一条数据;拖拽增加去重组件,其中去重字段选择设备序号,条件字段选择入库时间,去重条件选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可视化多模态数据采集、传输、处理的方法,其特征在于,包括:实现组件模型描述及扩展,构建多模态采集组件,数据传输基于Flink的流批一体进行传输,传输过程进行数据加密解密保证数据安全,提供数据清洗、数据提取、数据标识的处理组件,编排组件实现可视化设计数据处理任务模型,构造模型语言转换器支持完成数据处理。2.根据权利要求1所述的方法,其特征在于,实现组件模型描述及扩展首先定义公共组件模型,包含公共基本属性及公共方法,其中基本属性有数据源信息、输出字段、转换的sql列,公共方法有获取当前节点数据源的对应列信息列表、校验组件、校验参数值是否合法、获取上一个节点的输出列;由公共组件模型扩展出Reader、Rule及Writer三类组件,扩展后的组件增加个性属性、实现公共组件的抽象方法;再由Reader、Rule及Writer组件模型分别扩展实现多模态采集组件、处理组件及分发组件,组件模型的属性在可视化拖拽增加组件使用过程中展示为组件参数需要用户进行填写。3.根据权利要求2所述的方法,其特征在于,构建多模态采集组件,包括a)结构化数据读数据表组件支持采集结构化数据,组件参数包括数据源、数据库、模式、数据表、分片数量、where条件、分片字段、更新字段;b)非结构化数据对于非结构化数据提供hbase读取、hdfs读取、redis读取、MongoDB读取等采集组件,其中hdfs读取组件参数包括数据源、路径、分隔符、读取字段、正则匹配、文件类型、分片数量;c)物联感知物联数据读取组件需要提供通信协议类型、允许客户端IP、校验票据、数据格式,数据采集过程中会先启动监听网络程序,连接上客户端,用于接收被采集客户端的连接请求,等待客户端连接,然后校验客户端合法性,校验通过后客户端即可与采集组件建立连接发送数据;如果通信协议类型为TCP协议,则采集组件生成TCP采集驱动以开始采集,若为RTU协议,则生成RTU采集驱动以开始采集,若为RAW协议,则生成RAW采集驱动以开始采集,采集驱动根据数据格式进行数据转换后写入数据库、Elasticsearch或者是发送到MQTT、Kafka的Topic里面去。d)音视频音视频读取组件支持采集AAC格式的音频、H264格式的视频;组件会根据文件名后缀来选择对应的音视频解码器,把一帧未解码的压缩数据发送给解码器,解码器解码视频图像帧获得YUV视频图像,然后基于内容识别算法对图像进行分析,并根据预设的事件策略进行筛选;e)空间数据矢量数据读取组件支持SHP、DWG、DXF的类型空间数据的采集,栅格数据读取组件支持
ERDAS Imagine、GeoTIFF的类型空间数据的采集。4.根据权利要求3所述的方法,其特征在于,数据传输数据传输基于Apache Flink,同时支持批处理和流处理。5.根据权利要求4所述的方法,其特征在于,数据处理组件基于Rule组件模型扩展实现处理组件,处理组件的属性即为页面中需要配置的参数,数据处理组件包括基础组件、数据提取组件、数据清洗组件、数据标识组件和...

【专利技术属性】
技术研发人员:王文文王彦功张峰路国隋李存冰牛硕贾玉平
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1