基于线程划分的数据采集方法、装置及数据采集设备制造方法及图纸

技术编号:24009748 阅读:24 留言:0更新日期:2020-05-02 01:21
本发明专利技术提供了一种基于线程划分的数据采集方法、装置及数据采集设备,能够根据类别信息确定每个业务终端的第一数据格式,结合数据采集设备的第二数据格式生将生成的格式转换协议下发至对应的业务终端,业务终端可根据格式转换协议将业务数据包转换为目标数据包,将业务数据包中的冗余数据剔除,提高数据采集的效率。然后根据日志文件启动多个并行的第二数据采集线程,并为每个数据采集线程分配采集标识,基于每个第二数据采集线程的采集标识匹配到对应的业务终端以实现数据采集。综上,采集标识是基于第一数据格式的数据容量大小分配的,能够确保第二数据采集线程采集的目标数据包的数据容量大小与该线程的采集速率匹配,减少数据采集的耗时。

Data acquisition method, device and equipment based on thread Division

【技术实现步骤摘要】
基于线程划分的数据采集方法、装置及数据采集设备
本专利技术涉及数据采集
,具体而言,涉及一种基于线程划分的数据采集方法、装置及数据采集设备。
技术介绍
大数据技术的快速发展为现代社会的生产生活带来了诸多便利,现如今,各类业务处理可以基于大数据实现。数据采集作为大数据技术的重要的一环,能够将生产生活中的各类信息以数据的形式进行汇总,为大数据分析提供海量的数据基础。然而数据采集设备在进行数据采集时,往往存在耗时长且效率低下的问题。
技术实现思路
为了改善上述问题,本专利技术提供了一种基于线程划分的数据采集方法、装置及数据采集设备。本专利技术实施例的第一方面,提供了一种基于线程划分的数据采集方法,应用于与多个业务终端通信的数据采集设备,所述数据采集设备和所述业务终端基于Linux环境和DPDK环境实现数据交互,所述方法包括:获取每个业务终端的类别信息,根据所述类别信息确定每个业务终端在进行业务数据处理时的第一数据格式;确定数据采集设备与所述业务终端通信的第二数据格式,根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,并将每个格式转换协议下发至对应的业务终端;解析预设的第一数据采集线程得到用于启动所述第一数据采集线程的日志文件;根据所述日志文件启动多个并行的第二数据采集线程,按照每个第一数据格式所表征的数据容量大小为每个第二数据采集线程分配采集标识;在接收到针对每个业务终端进行同步数据采集的指令时,通过每个第二数据采集线程对每个业务终端中的目标数据包进行采集;其中,所述目标数据包是每个业务终端根据该业务终端对应的格式转换协议对该业务终端的业务数据包进行数据格式转换得到的,每个第二数据采集线程的采集标识与该第二数据采集线程对应采集的业务终端的类别信息相匹配。可选地,所述根据所述类别信息确定每个业务终端的第一数据格式,包括:提取所述类别信息中的目标字段;从所述目标字段中确定出第一字段信息和第二字段信息,所述第一字段信息用于表征业务终端对应的用户行为的调用方式,所述第二字段信息用于表征业务终端对根据所调用的用户行为生成的目标业务数据进行存储的存储方式;根据所述第一字段信息和所述第二字段信息之间的相同字段确定所述第一字段信息与所述第二字段信息之间的指向信息,所述指向信息用于表征所述目标业务数据在业务终端中的存储路径;确定所述指向信息中每个路径节点对应的目标数据格式,所述路径节点用于表征将所述目标业务数据进行存储时所述目标业务数据所处的存储区间,所述目标数据格式为每个存储区间对应的数据格式;根据所述第二字段信息中的存储方式以及每个路径节点对应的目标数据格式,确定每个业务终端的第一数据格式。可选地,所述根据所述第二字段信息中的存储方式以及每个路径节点对应的目标数据格式,确定每个业务终端的第一数据格式,包括:确定所述存储方式与每个目标数据格式的匹配度,所述匹配度用于表征按照所述存储方式将所述目标业务数据的数据格式转换为每个目标数据格式时的数据失真率;将最大匹配度对应的目标数据格式确定为所述业务终端的第一数据格式。可选地,所述根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,包括:针对每个第一数据格式,确定该第一数据格式的第一格式特征中用于表征该第一数据格式对应的业务终端的接口类型的第一目标向量值;确定所述第二数据格式中用于表征所述数据采集设备的接口类型的第二目标向量值;在所述第一目标向量值与所述第二目标向量值相同时,判断该第一数据格式的第一格式特征与所述第二格式特征之间的相似度是否达到设定阈值,若是,则将该第一数据格式的第一格式特征投影至所述第二格式特征得到第三格式特征并根据所述第三格式特征生成该第一数据格式对应的格式转换协议,若否,则根据该第一数据格式的第一格式特征与所述第二格式特征的和值确定第四格式特征并根据所述第四格式特征生成该第一数据格式对应的格式转换协议。可选地,在所述第一目标向量值与所述第二目标向量值不相同时,所述方法还包括:若该第一数据格式的第一格式特征与所述第二格式特征之间的相似度达到所述设定阈值,将该第一数据格式的第一格式特征中的第一目标向量值调整为所述第二目标向量值以得到该第一数据格式对应的第五格式特征,根据所述第五格式特征生成该第一数据格式对应的格式转换协议;若该第一数据格式的第一格式特征与所述第二格式特征之间的相似度没有达到所述设定阈值,将该第一数据格式的第一格式特征中的第一目标向量值调整为所述第二目标向量值以得到该第一数据格式对应的第五格式特征;根据所述第五格式特征与所述第二格式特征的和值确定第六格式特征并根据所述第六格式特征生成该第一数据格式对应的格式转换协议。可选地,所述通过每个第二数据采集线程对每个业务终端中的目标数据包进行采集,包括:针对每个第二数据采集线程,从获取到的多个类别信息中确定与该第二数据采集线程的采集标识相匹配的目标类别信息;基于该第二数据采集线程与所述目标类别信息对应的目标业务终端建立数据采集链路,根据所述数据采集链路对所述目标业务终端中的目标数据包进行数据采集。可选地,所述解析预设的第一数据采集线程得到用于启动所述第一数据采集线程的日志文件,包括:确定所述第一数据采集线程对应的多个连续的线程区间;从每个线程区间中定位出线程运行信息,不同线程区间的线程运行信息不同;针对每个线程区间,从该线程区间对应的第一线程运行信息中确定出与该线程区间的上一个线程区间对应的第二线程运行信息不同的目标运行信息;根据确定出的所有目标运行信息确定所述第一数据采集线程的日志文件。本专利技术实施例的第二方面,提供了一种数据采集装置,应用于与多个业务终端通信的数据采集设备,所述数据采集设备和所述业务终端基于Linux环境和DPDK环境实现数据交互,所述装置包括:获取模块,用于获取每个业务终端的类别信息,根据所述类别信息确定每个业务终端在进行业务数据处理时的第一数据格式;生成模块,用于确定数据采集设备与所述业务终端通信的第二数据格式,根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,并将每个格式转换协议下发至对应的业务终端;解析模块,用于解析预设的第一数据采集线程得到用于启动所述第一数据采集线程的日志文件;启动模块,用于根据所述日志文件启动多个并行的第二数据采集线程,按照每个第一数据格式所表征的数据容量大小为每个第二数据采集线程分配采集标识;采集模块,用于在接收到针对每个业务终端进行同步数据采集的指令时,通过每个第二数据采集线程对每个业务终端中的目标数据包进行采集;其中,所述目标数据包是每个业务终端根据该业务终端对应的格式转换协议对该业务终端的业务数据包进行数本文档来自技高网...

【技术保护点】
1.一种基于线程划分的数据采集方法,其特征在于,应用于与多个业务终端通信的数据采集设备,所述数据采集设备和所述业务终端基于Linux环境和DPDK环境实现数据交互,所述方法包括:/n获取每个业务终端的类别信息,根据所述类别信息确定每个业务终端在进行业务数据处理时的第一数据格式;/n确定数据采集设备与所述业务终端通信的第二数据格式,根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,并将每个格式转换协议下发至对应的业务终端;/n解析预设的第一数据采集线程得到用于启动所述第一数据采集线程的日志文件;/n根据所述日志文件启动多个并行的第二数据采集线程,按照每个第一数据格式所表征的数据容量大小为每个第二数据采集线程分配采集标识;/n在接收到针对每个业务终端进行同步数据采集的指令时,通过每个第二数据采集线程对每个业务终端中的目标数据包进行采集;其中,所述目标数据包是每个业务终端根据该业务终端对应的格式转换协议对该业务终端的业务数据包进行数据格式转换得到的,每个第二数据采集线程的采集标识与该第二数据采集线程对应采集的业务终端的类别信息相匹配。/n...

【技术特征摘要】
1.一种基于线程划分的数据采集方法,其特征在于,应用于与多个业务终端通信的数据采集设备,所述数据采集设备和所述业务终端基于Linux环境和DPDK环境实现数据交互,所述方法包括:
获取每个业务终端的类别信息,根据所述类别信息确定每个业务终端在进行业务数据处理时的第一数据格式;
确定数据采集设备与所述业务终端通信的第二数据格式,根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,并将每个格式转换协议下发至对应的业务终端;
解析预设的第一数据采集线程得到用于启动所述第一数据采集线程的日志文件;
根据所述日志文件启动多个并行的第二数据采集线程,按照每个第一数据格式所表征的数据容量大小为每个第二数据采集线程分配采集标识;
在接收到针对每个业务终端进行同步数据采集的指令时,通过每个第二数据采集线程对每个业务终端中的目标数据包进行采集;其中,所述目标数据包是每个业务终端根据该业务终端对应的格式转换协议对该业务终端的业务数据包进行数据格式转换得到的,每个第二数据采集线程的采集标识与该第二数据采集线程对应采集的业务终端的类别信息相匹配。


2.根据权利要求1所述的方法,其特征在于,所述根据所述类别信息确定每个业务终端的第一数据格式,包括:
提取所述类别信息中的目标字段;
从所述目标字段中确定出第一字段信息和第二字段信息,所述第一字段信息用于表征业务终端对应的用户行为的调用方式,所述第二字段信息用于表征业务终端对根据所调用的用户行为生成的目标业务数据进行存储的存储方式;
根据所述第一字段信息和所述第二字段信息之间的相同字段确定所述第一字段信息与所述第二字段信息之间的指向信息,所述指向信息用于表征所述目标业务数据在业务终端中的存储路径;
确定所述指向信息中每个路径节点对应的目标数据格式,所述路径节点用于表征将所述目标业务数据进行存储时所述目标业务数据所处的存储区间,所述目标数据格式为每个存储区间对应的数据格式;
根据所述第二字段信息中的存储方式以及每个路径节点对应的目标数据格式,确定每个业务终端的第一数据格式。


3.根据权利要求2所述的方法,其特征在于,所述根据所述第二字段信息中的存储方式以及每个路径节点对应的目标数据格式,确定每个业务终端的第一数据格式,包括:
确定所述存储方式与每个目标数据格式的匹配度,所述匹配度用于表征按照所述存储方式将所述目标业务数据的数据格式转换为每个目标数据格式时的数据失真率;
将最大匹配度对应的目标数据格式确定为所述业务终端的第一数据格式。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据每个第一数据格式的第一格式特征与所述第二数据格式的第二格式特征之间的相似度生成每个第一数据格式对应的格式转换协议,包括:
针对每个第一数据格式,确定该第一数据格式的第一格式特征中用于表征该第一数据格式对应的业务终端的接口类型的第一目标向量值;
确定所述第二数据格式中用于表征所述数据采集设备的接口类型的第二目标向量值;
在所述第一目标向量值与所述第二目标向量值相同时,判断该第一数据格式的第一格式特征与所述第二格式特征之间的相似度是否达到设定阈值,若是,则将该第一数据格式的第一格式特征投影至所述第二格式特征得到第三格式特征并根据所述第三格式特征生成该第一数据格式对应的格式转换协议,若否,则根据该第一数据格式的第一格式特征与所述第二格式特征的和值确定第四格式特征并根据所述第四格式特征生成该第一数据格式对应的格式转换协议。


5.根据权利要求4所述的方法,其特征在于,在所述第一目标向量值与所述第二目标向量值不相同时,所述方法还包括:
若该第一数据格式的第一格式特征与所述第二格式特征之间的相似度达到所述设定阈值,将该第一数据格式的第一格式特征中的第一目标向量值调整为所述第二目标向量值以得到该第一数据格式对应的第五格式特征,根据所述第五格式特...

【专利技术属性】
技术研发人员:杨贻宏
申请(专利权)人:上海飞旗网络技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1