【技术实现步骤摘要】
基于线程划分的数据采集方法、装置及数据采集设备
本专利技术涉及数据采集
,具体而言,涉及一种基于线程划分的数据采集方法、装置及数据采集设备。
技术介绍
大数据技术的快速发展为现代社会的生产生活带来了诸多便利,现如今,各类业务处理可以基于大数据实现。数据采集作为大数据技术的重要的一环,能够将生产生活中的各类信息以数据的形式进行汇总,为大数据分析提供海量的数据基础。然而数据采集设备在进行数据采集时,往往存在耗时长且效率低下的问题。
技术实现思路
为了改善上述问题,本专利技术提供了一种基于线程划分的数据采集方法、装置及数据采集设备。本专利技术实施例的第一方面,提供了一种基于线程划分的数据采集方法,应用于与多个业务终端通信的数据采集设备,所述数据采集设备和所述业务终端基于Linux环境和DPDK环境实现数据交互,所述方法包括:获取每个业务终端的类别信息,根据所述类别信息确定每个业务终端在进行业务数据处理时的第一数据格式;确定数据采集设备与所述业务终端通信的第二数据格式,根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,并将每个格式转换协议下发至对应的业务终端;解析预设的第一数据采集线程得到用于启动所述第一数据采集线程的日志文件;根据所述日志文件启动多个并行的第二数据采集线程,按照每个第一数据格式所表征的数据容量大小为每个第二数据采集线程分配采集标识;在接收到针对每个业务终端进行同步数据 ...
【技术保护点】
1.一种基于线程划分的数据采集方法,其特征在于,应用于与多个业务终端通信的数据采集设备,所述数据采集设备和所述业务终端基于Linux环境和DPDK环境实现数据交互,所述方法包括:/n获取每个业务终端的类别信息,根据所述类别信息确定每个业务终端在进行业务数据处理时的第一数据格式;/n确定数据采集设备与所述业务终端通信的第二数据格式,根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,并将每个格式转换协议下发至对应的业务终端;/n解析预设的第一数据采集线程得到用于启动所述第一数据采集线程的日志文件;/n根据所述日志文件启动多个并行的第二数据采集线程,按照每个第一数据格式所表征的数据容量大小为每个第二数据采集线程分配采集标识;/n在接收到针对每个业务终端进行同步数据采集的指令时,通过每个第二数据采集线程对每个业务终端中的目标数据包进行采集;其中,所述目标数据包是每个业务终端根据该业务终端对应的格式转换协议对该业务终端的业务数据包进行数据格式转换得到的,每个第二数据采集线程的采集标识与该第二数据采集线程对应采集的业务终端的类别信 ...
【技术特征摘要】
1.一种基于线程划分的数据采集方法,其特征在于,应用于与多个业务终端通信的数据采集设备,所述数据采集设备和所述业务终端基于Linux环境和DPDK环境实现数据交互,所述方法包括:
获取每个业务终端的类别信息,根据所述类别信息确定每个业务终端在进行业务数据处理时的第一数据格式;
确定数据采集设备与所述业务终端通信的第二数据格式,根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,并将每个格式转换协议下发至对应的业务终端;
解析预设的第一数据采集线程得到用于启动所述第一数据采集线程的日志文件;
根据所述日志文件启动多个并行的第二数据采集线程,按照每个第一数据格式所表征的数据容量大小为每个第二数据采集线程分配采集标识;
在接收到针对每个业务终端进行同步数据采集的指令时,通过每个第二数据采集线程对每个业务终端中的目标数据包进行采集;其中,所述目标数据包是每个业务终端根据该业务终端对应的格式转换协议对该业务终端的业务数据包进行数据格式转换得到的,每个第二数据采集线程的采集标识与该第二数据采集线程对应采集的业务终端的类别信息相匹配。
2.根据权利要求1所述的方法,其特征在于,所述根据所述类别信息确定每个业务终端的第一数据格式,包括:
提取所述类别信息中的目标字段;
从所述目标字段中确定出第一字段信息和第二字段信息,所述第一字段信息用于表征业务终端对应的用户行为的调用方式,所述第二字段信息用于表征业务终端对根据所调用的用户行为生成的目标业务数据进行存储的存储方式;
根据所述第一字段信息和所述第二字段信息之间的相同字段确定所述第一字段信息与所述第二字段信息之间的指向信息,所述指向信息用于表征所述目标业务数据在业务终端中的存储路径;
确定所述指向信息中每个路径节点对应的目标数据格式,所述路径节点用于表征将所述目标业务数据进行存储时所述目标业务数据所处的存储区间,所述目标数据格式为每个存储区间对应的数据格式;
根据所述第二字段信息中的存储方式以及每个路径节点对应的目标数据格式,确定每个业务终端的第一数据格式。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二字段信息中的存储方式以及每个路径节点对应的目标数据格式,确定每个业务终端的第一数据格式,包括:
确定所述存储方式与每个目标数据格式的匹配度,所述匹配度用于表征按照所述存储方式将所述目标业务数据的数据格式转换为每个目标数据格式时的数据失真率;
将最大匹配度对应的目标数据格式确定为所述业务终端的第一数据格式。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,包括:
针对每个第一数据格式,确定该第一数据格式的第一格式特征中用于表征该第一数据格式对应的业务终端的接口类型的第一目标向量值;
确定所述第二数据格式中用于表征所述数据采集设备的接口类型的第二目标向量值;
在所述第一目标向量值与所述第二目标向量值相同时,判断该第一数据格式的第一格式特征与所述第二格式特征之间的相似度是否达到设定阈值,若是,则将该第一数据格式的第一格式特征投影至所述第二格式特征得到第三格式特征并根据所述第三格式特征生成该第一数据格式对应的格式转换协议,若否,则根据该第一数据格式的第一格式特征与所述第二格式特征的和值确定第四格式特征并根据所述第四格式特征生成该第一数据格式对应的格式转换协议。
5.根据权利要求4所述的方法,其特征在于,在所述第一目标向量值与所述第二目标向量值不相同时,所述方法还包括:
若该第一数据格式的第一格式特征与所述第二格式特征之间的相似度达到所述设定阈值,将该第一数据格式的第一格式特征中的第一目标向量值调整为所述第二目标向量值以得到该第一数据格式对应的第五格式特征,根据所述第五格式特...
【专利技术属性】
技术研发人员:杨贻宏,
申请(专利权)人:上海飞旗网络技术股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。