【技术实现步骤摘要】
信息处理方法、装置、设备、存储介质及程序产品
本公开涉及计算机
,尤其涉及大数据
技术介绍
在当今的互联网大数据时代,网络数据量呈指数增长。每个企业都会生产、加工大量高价值数据,这些数据具备规模大、链路长、参与角色多的特点,随着企业大数据爆炸式增长,必然引发数据追踪、数据管理、数据安全等实际问题,因此数据治理成为了企业必需开展的重要工作。数据之间的血缘关系是数据管理的一项重要技术。数据之间的血缘关系代表着数据之间的关联,而血缘关系采集技术就是开展数据治理这项工作的关键技术点。通过数据血缘关系采集获得企业统一的血缘库,便可以获悉每一份数据的来源和去向,从而可以很好地实现全链路数据追踪、审计、热度统计、无效数据清理,节省资源,应用广泛。随着数据量进一步增加,需要对数据之间关联关系获取的技术进行改进,以便更为准确高效地获得数据血缘关系,对大数据进行更好的管理和利用。
技术实现思路
本公开提供了一种用于信息处理方法、装置、设备、存储介质及程序产品。根据本公开的一方面,提供了一种信息
【技术保护点】
1.一种信息处理方法,包括:/n获取元信息;所述元信息包含原始网络数据在存储表中对应的字段,以及用于概括所述信息处理作业对原始网络数据的计算过程;所述存储表用于存储信息处理作业对应于各个字段的计算结果;/n根据所述元信息,获取所述原始网络数据的数据来源与所述信息处理作业与各个字段对应的计算结果之间的关联关系;/n将所述关联关系回传至指定的接收地址。/n
【技术特征摘要】
1.一种信息处理方法,包括:
获取元信息;所述元信息包含原始网络数据在存储表中对应的字段,以及用于概括所述信息处理作业对原始网络数据的计算过程;所述存储表用于存储信息处理作业对应于各个字段的计算结果;
根据所述元信息,获取所述原始网络数据的数据来源与所述信息处理作业与各个字段对应的计算结果之间的关联关系;
将所述关联关系回传至指定的接收地址。
2.根据权利要求1所述的方法,其中,所述元信息包括所述信息处理作业运行时的语法树信息;所述根据所述元信息,获取所述原始网络数据的数据来源与所述信息处理作业与各个字段对应的计算结果之间的关联关系,包括:
根据所述语法树信息中的叶子节点,获得所述原始网络数据的数据来源;
根据所述叶子节点的祖先节点,获得对所述原始网络数据的操作信息,所述操作信息对应于至少一个所述字段;
根据所述操作信息,获取所述原始网络数据的数据来源与所述信息处理作业对应于各个字段的计算结果之间的关联关系。
3.根据权利要求2所述的方法,其中,所述根据所述叶子节点的祖先节点,获得对所述原始网络数据的操作信息,包括:
将所述叶子节点对应的数据来源,与所述祖先节点对应的操作信息进行逐级关联,直至到达所述语法树信息的根节点,以获得从所述叶子节点的父节点到所述根节点之间对应的对所述原始网络数据的所有操作信息。
4.根据权利要求2或3所述的方法,其中,所述获取元信息,包括:
通过所述信息处理作业运行平台的可编程扩展接口,获得所述语法树信息。
5.根据权利要求4所述的方法,其中,所述方法还包括:
将所述原始网络数据转换为数据框架格式的第一数据;
对所述第一数据进行解析和分析处理,生成第二数据;
将所述第二数据加入所述第一数据中,得到第三数据,所述第三数据包含所述语法树信息。
6.根据权利要求5所述的方法,其中,所述通过所述信息处理作业运行平台的可编程扩展接口,获得所述语法树信息,包括:
所述通过所述信息处理作业运行平台的可编程扩展接口,获得所述第三数据;
从所述第三数据中,提取所述语法树信息。
7.根据权利要求1所述的方法,其中,所述元信息包括所述信息处理作业操作时的读写信息;所述根据所述元信息,获取所述原始网络数据的数据来源与所述信息处理作业与各个字段对应的计算结果之间的关联关系,包括:
从所述读写信息中提取所述字段;
确定提取出的字段和所述数据来源之间的关联关系。
8.根据权利要求7所述的方法,其中,所述获取元信息,包括:
对所述信息处理作业执行加载时织入的动态代理操作;
通过所述动态代理操作,获得所述元信息。
9.根据权利要求1所述的方法,其中,所述将所述关联关系回传至指定的接收地址,包括:
将所述关联关系打包并实时发送至所述接收地址的消息队列。
10.一种信息处理方法,包括:
获取探针,所述探针用于执行权利要求1-9中任意一项所述的方法;
将所述探针和用于计算原始网络数据的信息处理作业结合,递交至执行所述信息处理作业的集群系统;
运行所述探针和所述信息处理作业。
11.根据权利要求10所述的方法,其中,所述将所述探针和用于计算原始网络数据的信息处理作业结合,递交至执行所述信息处理作业的集群系统,包括:
拦截所述信息处理作业的提交命令;
扩展所述提交命令的命令参数,使得所述探针随着所述信息处理作业提交至所述集群系统。
12.一种信息处理装置,包括:
元信息获取模块,用于获取元信息;所述元信息包含原始网络数据在存储表中对应的字段,以及用于概括所述信息处理作业对原始网络数据的计算过程;所述存储表用于存储信息处理作业对应于各个字段的计算结果;
关联关系获取模块,用于根据所述元信息,获取所...
【专利技术属性】
技术研发人员:叶玮彬,崔金涛,刘涛,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。