一种无埋点数据采集方法、装置及存储介质制造方法及图纸

技术编号:24103259 阅读:56 留言:0更新日期:2020-05-09 14:09
本发明专利技术提供了一种无埋点数据采集方法,所述步骤包括:流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。此外,本发明专利技术还提供了一种无埋点数据采集装置、设备、存储介质,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。

A data acquisition method, device and storage medium without buried point

【技术实现步骤摘要】
一种无埋点数据采集方法、装置及存储介质
:本专利技术涉及计算机
,具体的,涉及一种无埋点数据采集方法、装置以及存储介质。
技术介绍
:面对海量资讯世界,在越来越多的数据和信息可以从互联网上获得时,对大量数据的采集、分析和深度挖掘同时还可能产生巨大的商机。电商企业、旅游、互联网金融、企业服务的等行业纷纷搭建数据指标体系,构建可以落地精细化运营、指导业务增长的用户画像,对数据规模性、丰富性、准确性、即时性等多方面提出了更多的要求。目前普遍使用数据埋点、网络爬虫等方式完成数据采集。埋点数据采集具有代码工作量大、实施繁杂,发布后生效时间跨度大,数据时延大,埋点量大导致客户端崩溃等缺点。现阶段无埋点的技术依赖网站或者APP终端技术开发的严谨性与规范性、网络状态、网络口径等因素,并且无法深入到更细、更深的粒度,例如在电商行业中,用户点击“购物车”是一次交互行为,无埋点会忽略用户信息、商品品类等维度信息,若网站设置反爬虫机制,那么基于网络爬虫原理的数据采集的方法将不可用。另外,以上方法无法获的网络服务性能方面的数据,无法感知网络延迟带来的用户体验等问题。因此,本领域亟需一种无埋点数据采集方法,以解决上述技术问题。
技术实现思路
:有鉴于此,本专利技术的目的在于提供一种无埋点数据采集方法、设备以及存储介质,以解决
技术介绍
中所述的至少一个技术问题。具体的,本专利技术的第一方面,提供了一种无埋点数据采集方法,其步骤包括:流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。采用上述技术方案,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。优选地,所述流量预处理步骤中,还包括步骤,对数据流进行复制,获得第一数据流、第二数据流。采用上述方案,通过对数据流进行复制,保证了原始数据流不会被后续的操作步骤所影响,改善用户的使用体验。优选地,采用分光器对数据流进行复制,所述第一数据流与第二数据流中的数据相同。优选地,所述流量预处理步骤中,还包括步骤,对第三数据流的进行解封装处理,获得第三数据流的标记特征。优选地,所述流量预处理步骤中,还包括步骤,创建流表,所述流表包括第三数据流的标签信息。优选地,所述标签信息包括标记特征。采用上述技术方案,可以通过数据流的标记特征更快速的分辨数据来源,提高了数据采集效率。优选地,所述标记特征包括五元组特征。优选地,标签信息包括第三数据流的状态特征。优选地,所述第三数据流的状态特征包括留存阈值,判断同类第三数据流的再次出现时间是否超过留存阈值,若超过,则将流表中将该第三数据流标签信息删除。采用上述技术方案,可以在流表中保存已识别的数据流信息,待同类数据流再次出现时,可以直接对数据流进行识别,而不必再次进行解析,提高了数据采集效率。而留存阈值的设置,可以将不常用的数据流排除流表中,减小内存压力,同时也能更好的进行处理资源的分配。优选地,所述流量解析步骤中,包括对第三数据流中的数据包进行解析。优选地,所述流量解析步骤中,包括判断第三数据流的特征来源。优选地,所述标签信息包括第三数据流的识别特征。优选地,所述流量解析步骤中,还包括步骤,判断第三数据流的识别特征,并将所述识别特征结果更新至流表中。采用上述技术方案,将数据流的识别特征结果更新至流表中,可以快速的更新流表信息,防止同类数据的再次解析,提高数据采集效率。优选地,所述流量解析步骤中,应用第二策略对第三数据流的特征进行处理时,采用AC算法。优选地,所述流量元数据提取步骤中,还包括步骤,对元数据进行分类,获得元数据分类信息,并将第三数据流的元数据与元数据分类信息相匹配。采用上述技术方案,可以通过对元数据的分类,更高效的找到元数据、处理元数据,提高了数据采集效率。优选地,所述流量元数据提取步骤中,还包括步骤,应用第三策略对第三数据流的元数据进行处理,获得第一元数据,并将第一元数据进行存储。优选地,应用第一策略、第二策略或第三策略的方法包括步骤:接收策略信息,生成第一数组;生成临时数组,在策略匹配前,将临时数组中所有数据置零;策略匹配,当策略命中时,更新临时数组中的数据;判断临时数组与第一数组中的数据是否相同,若相同,则策略命中,若不同,则策略未命中。采用上述技术方案,可以有效减少匹配策略时cachemiss的次数,提高匹配效率。本专利技术的第二方面,本专利技术提供了一种无埋点数据采集装置,所述装置包括:流量预处理模块,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;流量解析模块,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;流量元数据提取模块,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。优选地,所述流量预处理模块中,还包括数据流复制模块,用于对数据流进行复制,获得第一数据流、第二数据流。优选地,所述数据流复制模块为分光器。优选地,所述流量预处理模块中,还包括解封装模块,用于对第三数据流的进行解封装处理,获得第三数据流的标记特征。优选地,所述流量预处理模块中,还包括流表模块,所述流表模块中包括第三数据流的标签信息。优选地,所述流表模块中包括第一判断单元,所述第一判断单元用于判断同类第三数据流的再次出现时间是否超过留存阈值,若超过,则将流表中将该第三数据流标签信息删除。优选地,所述流量解析模块中,还包括第二判断单元,所述第二判断单元用于判断第三数据流的识别特征;同步单元,用于将所述识别特征更新至流表中。优选地,所述流量元数据提取模块中,还包括第一分类单元,用于对元数据进行分类,获得元数据分类信息;第一匹配单元,用于将第三数据流的元数据与元数据分类信息相匹配。本专利技术的第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时能够实现如上所述的无埋点数据采集方法。本专利技术的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时能够实现如上所述的无埋点数据采集方法。本专利技术的有益效果:1.本专利技术所提供的无埋点数据采集方法,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。2.本专利技术所提供的无埋点数据采集方法,通过对数据流进行复制,保证了原始数据流不会被后续的操作步骤所影响,改善用户的使用体验。3.本专利技术所提供的无埋点数据采集方法,通过设置流表,可以在流表中保存已识别的数据流信息,待同本文档来自技高网...

【技术保护点】
1.一种无埋点数据采集方法,其特征在于,其步骤包括:/n流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;/n流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;/n流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。/n

【技术特征摘要】
1.一种无埋点数据采集方法,其特征在于,其步骤包括:
流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;
流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;
流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。


2.根据权利要求1所述的无埋点数据采集方法,其特征在于,所述流量预处理步骤中,包括步骤,对数据流进行复制,获得第一数据流、第二数据流。


3.根据权利要求1所述的无埋点数据采集方法,其特征在于,所述流量预处理步骤中,还包括步骤,对第三数据流的进行解封装处理,获得第三数据流的标记特征。


4.根据权利要求1-3任一种所述的无埋点数据采集方法,其特征在于,所述流量预处理步骤中,还包括步骤,创建流表,所述流表包括第三数据流的标记特征。


5.根据权利要求4所述的无埋点数据采集方法,其特征在于,所述流量解析步骤中,包括对第三数据流中的数据包进行解析。


6.根据权利要求5所述的无埋点数据采集方法,其特征在于,所述流量元数据提取步骤中,还包括步骤,对元数据进行分类,获得元数据分类信息,并将第三...

【专利技术属性】
技术研发人员:王芃魏强朱玉亭刘松溪
申请(专利权)人:北京浩瀚深度信息技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1