【技术实现步骤摘要】
数据采集的方法及相关装置
[0001]本申请涉及数据处理与分析领域,特别是涉及一种数据采集的方法及相关装置。
技术介绍
[0002]现阶段的客户端数据采集方案大多是有侵入式的主动上报,也就是在前端采用公共方案组件,调用后台接口在各个功能点,上报当前页面和资源属性;另一种现有方案是基于页面元素的事件冒泡:采集处理端,使用java或者php等后端语言开发web应用,进行报文写入,按照功能点分别写入关系表。
[0003]现有方案以埋点事件的为管理单元,没有统一的业务模型抽象,数据资源利用率低。数据清洗转化基于web服务处理,数据吞吐低,只能满足少量的同时上报,并且数据写入的实时性较差。
技术实现思路
[0004]本申请实施例提供了一种数据采集的方法及相关装置,以期实现实时地无埋点数据采集客户数据并上报至服务器的数据库中,高吞吐量的处理数据,支持海量的数据存储以及数据的高效聚合与实时分析
[0005]第一方面,本申请实施例提供了一种数据采集的方法,上述方法包括:
[0006]监听目标终端所执行
【技术保护点】
【技术特征摘要】
1.一种数据采集的方法,其特征在于,包括:监听目标终端所执行的业务操作;若监听到所述业务操作中的目标触发事件,则采集所述目标触发事件的用户数据,所述用户数据包括属性信息、行为信息和场景信息,所述属性信息用于描述用户的静态特征,所述行为信息用于指示用户的操作记录,所述目标触发事件为预设的用于指示数据采集的事件;向服务器的数据库发送所述用户数据。2.根据权利要求1所述的方法,其特征在于,所述采集所述目标触发事件的用户数据,包括:通过一种高吞吐量的分布式发布订阅消息系统kafka,实时地将所述用户数据从所述目标终端中读取出来;对所述用户数据按照预先设计好的规则将抽取的数据进行数据格式和维度的转换,使本来异构的数据格式能统一起来;将转换完成的数据按计划增量或全部导入到所述数据库中。3.根据权利要求1所述的方法,其特征在于,所述监听目标终端所执行的业务操作之前,所述方法还包括:设置目标触发事件,所述目标触发事件分为:点击事件、曝光事件、页面停留时长三类;所述点击事件是指所述用户每点击所述目标终端页面按钮一次,就会记录一次数据;所述曝光事件是指所述用户进入页面或刷新页面时的数据,退出所述页面则不记录;所述页面停留时长是指所述用户在所述页面的停留时长,通过记录所述用户进入页面的时间和离开页面的时间计算。4.根据权利要求1
‑
3任一所述的方法,其特征在于,所述采集所述目标触发事件的用户数据之后,所述方法还包括:基于一种非对称加密算法RSA+三重数据加密算法3DES的加密机制对所述用户数据进行加密;其中,所述3DES用于对长内容加密,所述RSA用于对所述3DES使用的密钥加密。5.根据权利要求4所述的方法,其特征在于,所述向服务器的数据库发送所述用户数据之前,还包括:流式计算所述用户数据,所述流式计算是一种“事件触发”的计算模式,是指针对所述实时获取所述事件的用户数据持续进行的计算。6.根据权利要求1所述的方法,其特征在于,所述若监听到所述业务操作中的目标触发事件,则采集所述目标触发事件的用户数据之前,所述方法还包括:在业务代码中加载一段定义好的软件开发工具包SDK代码,以实现无侵入的所述用户行为事件拦截,所述无侵入是指利用所述SDK代码实时地在目标触发事件抓取关键用户行为事件。7.根据权利要求1
‑
6中任一所述的方法,其特征在于,提取所述数据库的所述用...
【专利技术属性】
技术研发人员:华文尧,
申请(专利权)人:深圳思为科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。